Enregistrer des données - pour prévoir, pour faire des calculs - est une activité qui n'est pas nouvelle.
L'augmentation rapide des capacités de stockage et des vitesses de calcul des ordinateurs à permis de décupler la puissance de stockage et le traitement des données.
Cette évolution a entraîné l'émergence au début du XXIème siècle d'une nouvelle branche de l'informatique : la science des données (en anglais data science)
On trouve énormément de données sur internet. Une partie de ces données sont publiques, par exemple le site data.gouv.fr récence un grand nombre de données publiques. Ces données sont librement réutilisables.
Le format csv est très courant sur internet, nous allons l'étudier en premier.
Voici ce que nous dit Wikipédia sur le format CSV :
Comma-separated values, connu sous le sigle CSV, est un format informatique ouvert représentant des données tabulaires sous forme de valeurs séparées par des virgules.
Un fichier CSV est un fichier texte, par opposition aux formats dits « binaires ».
Chaque ligne du texte correspond à une ligne du tableau et les virgules correspondent aux séparations entre les colonnes. Les portions de texte séparées par une virgule correspondent ainsi aux contenus des cellules du tableau.
Voici un exemple en haut à droite du contenu d'un fichier CSV :
Je pense qu'il est évident pour vous que nous avons ici 3 personnes :
"nom", "prenom" et "date_naissance" sont appelés des descripteurs ou champs alors que, par exemple, "Durand", "Dupont" et "Terta" sont les valeurs du descripteur "nom".