Bonjour,
J’ai reçu un dataset sur Excel et j’ai réussi à l’importer sur R avec la fonction read.csv.
Par contre, le jeu de données est très gros (je ne sais même pas combien de données il contient😅) et je ne sais pas par où commencer pour comprendre les données.
Merci de votre aide!

Bonjour TheGoat,
Importation des données
Je ne sais pas si ton jeu de données ne contient que des variables numériques (uniquement des nombres) ou s'il contient aussi des mots, mais voici ce que je te propose:
Si le jeu de données contient des variables catégorielles* (des mots)
Si le jeu de données contient des nombres et des mots (par exemple, s'il y a une colonne qui spécifie la marque de la voiture), je te conseillerais d'importer ton jeu de donnée avec la fonction read.csv comme tu as fait, mais aussi de spécifier le paramètre "stringAsFactors = TRUE":
data <- read.csv("NomDuDataset.csv", stringAsFactors = TRUE)
Le paramètre "stringAsFactors = TRUE" est donc très utile si ton jeu de données contient des variables catégorielles puisqu'il permet d'importer les données en "facteurs" ("Factor") plutôt qu'en "character" ("chr").
Tu peux aussi remarquer que j'ai mis le jeu de données dans un objet appelé "data". Nous allons donc pouvoir travailler avec le jeu de données plus facilement.
Si le jeu de données ne contient que des variables numériques (des nombres)
Tu peux laisser tomber le paramètre "stringAsFactors = TRUE".
data <- read.csv("NomDuDataset.csv")
Fonctions utiles pour analyse préliminaire
Maintenant que ton jeu de données est importé, je te conseille d'utiliser les fonctions suivantes pour bien visualiser tes données.
dim(): Fonction qui donne les dimensions de ton jeu de données.
dim(data)
Cette fonction te permettra de voir combien de lignes (donc d'observations) et de colonnes (donc de variables) ton jeu de données contient.
2. str(): Fonction qui va te permettre de visualiser le type de variables contenues dans ton jeu de données (par exemple: "Factor", "num", "int", "chr", etc.)
str(data)
Tu peux normalement identifier certains problèmes et les corriger.
NOTE: Un défaut du paramètre "stringAsFactors = TRUE" est qu'il a aussi tendance à changer des variables numériques "num" en "factors". Tu veux donc les remettre les variables numériques en "num". Cependant, tu dois faire attention puisque tu ne peux pas tout simplement faire as.numeric(data[,5]) lorsque tu veux transformer un "Factor" en "num". En effet, tu dois premièrement le transformer en "chr" et ensuite en "num":
data[,5] <- as.numeric(as.character(data[,5))
car sinon "as.numeric()" retourne le niveau du facteur au lieu de sa valeur.
3. summary(): Fonction qui fourni un résumé statistique des données.
Par exemple, elle fourni le minimum, le maximum, le 1er quartile, la médiane, le nombre de données manquantes (NA), etc.
summary(data)
En résumé
Je commence toujours à analyser mon jeu de données grâce à ces trois fonctions:
dim()
str()
summary()
En espérant que ça t'aide à commencer ton travail!
- XXL MathTutor
Définitions
*Variables catégorielles: Une variable catégorielle est une variable qui n'est pas quantifiable, c'est donc une variable qualitative.
Il y a deux types de variables catégorielles:
nominale: Si la variable n'a pas d'ordre précis.
Par exemple, une variable qui décrit la couleur: jaune, bleu, rouge,... Il n'y a pas d'ordre logique. Ça ne changerait rien si on changeait l'ordre pour rouge, bleu, jaune par exemple.
ordinale: Si la variable catégorielle peut avoir un ordre logique.
Par exemple, "petit-moyen-gros" a beaucoup plus de sens que "moyen-gros-petit". Même chose pour une catégorie d'âge: [0-25 ans];[26-35];[36;50];[51 et plus). On peut mettre les variables dans un ordre logique.