# Exploración y Limpieza de Datos de Estudiantes

En este notebook, abordaremos la tarea crucial de explorar y limpiar un conjunto de datos denominado "students_dirty.csv". Nuestro principal objetivo es asegurar la integridad y calidad de la información, preparándola para análisis detallados y conclusiones significativas. A través de preguntas clave de limpieza y análisis exploratorio, nos sumergiremos en la identificación y corrección de posibles inconsistencias y destacaremos tendencias esenciales en la población estudiantil. Este proceso de limpieza es esencial para garantizar que los datos sean fiables y proporcionen una base sólida para futuras investigaciones.

In [61]:
#Importamos los Modulos
import numpy as np
import pandas as pd
import os

In [62]:
# Obtiene el directorio actual
directorio_actual = os.getcwd()

# Nombre del archivo CSV que se desea abrir
nombre_archivo = "students_dirty.csv"

# Se Construye la ruta completa del archivo utilizando os.path.join
ruta_completa = os.path.join(directorio_actual, nombre_archivo)

# Verifico si el archivo existe antes de intentar abrirlo
if os.path.exists(ruta_completa):
    # Abre el archivo CSV utilizando pandas
    df = pd.read_csv(ruta_completa)

else:
    print(f"El archivo {nombre_archivo} no existe en el directorio actual.")

In [63]:
#Verifico que sea el tipo de objeto un DataFrame
type(df)

pandas.core.frame.DataFrame

In [64]:
#Muestro el DataFrame
df

Unnamed: 0,first_name,last_name,class,stream,section,sex,Date_of_birth,email,contact,parent_id,address,fees
0,Layla,Higgins,s1,west,boarding,F,15-Mar-02,LaylaHaggins@gmail.com,2.567072e+11,1.0,Utah,20000.0
1,Sterling,Arias,s3,south,day,M,04-Jul-03,SterlingArias@gmail.com,2.567072e+11,2.0,Washington,20000.0
2,Aleah,Cummings,s6,north,day,F,22-Nov-01,AleahCummings@gmail.com,2.567072e+11,3.0,Virginia,20000.0
3,Raiden,Craig,s4,east,boarding,M,,RaidenCraig@gmail.com,2.567072e+11,4.0,Ohio,20000.0
4,Brynn,Hopkins,s1,west,day,M,09-Sep-04,BrynnHopkins@gmail.com,2.567072e+11,5.0,Iowa,20000.0
...,...,...,...,...,...,...,...,...,...,...,...,...
995,Angel,Anderson,s2,east,day,F,08-Nov-02,AngelAnderson@gmail.com,2.567072e+11,996.0,Tennessee,20000.0
996,Ella,Shields,s4,west,day,M,02-Feb-04,EllaShields@gmail.com,2.567072e+11,997.0,Oregon,20000.0
997,Devon,Alexander,s5,south,boarding,M,18-Aug-01,DevonAlexander@gmail.com,,998.0,Georgia,20000.0
998,Lyla,Harrell,s6,north,day,M,06-Apr-00,LylaHarrell@gmail.com,2.567072e+11,999.0,Iowa,20000.0


In [65]:
#Muestro las 5 Primeras Filas
df.head()

Unnamed: 0,first_name,last_name,class,stream,section,sex,Date_of_birth,email,contact,parent_id,address,fees
0,Layla,Higgins,s1,west,boarding,F,15-Mar-02,LaylaHaggins@gmail.com,256707200000.0,1.0,Utah,20000.0
1,Sterling,Arias,s3,south,day,M,04-Jul-03,SterlingArias@gmail.com,256707200000.0,2.0,Washington,20000.0
2,Aleah,Cummings,s6,north,day,F,22-Nov-01,AleahCummings@gmail.com,256707200000.0,3.0,Virginia,20000.0
3,Raiden,Craig,s4,east,boarding,M,,RaidenCraig@gmail.com,256707200000.0,4.0,Ohio,20000.0
4,Brynn,Hopkins,s1,west,day,M,09-Sep-04,BrynnHopkins@gmail.com,256707200000.0,5.0,Iowa,20000.0


In [66]:
#Muestro las ultimas 5 filas 
df.tail()

Unnamed: 0,first_name,last_name,class,stream,section,sex,Date_of_birth,email,contact,parent_id,address,fees
995,Angel,Anderson,s2,east,day,F,08-Nov-02,AngelAnderson@gmail.com,256707200000.0,996.0,Tennessee,20000.0
996,Ella,Shields,s4,west,day,M,02-Feb-04,EllaShields@gmail.com,256707200000.0,997.0,Oregon,20000.0
997,Devon,Alexander,s5,south,boarding,M,18-Aug-01,DevonAlexander@gmail.com,,998.0,Georgia,20000.0
998,Lyla,Harrell,s6,north,day,M,06-Apr-00,LylaHarrell@gmail.com,256707200000.0,999.0,Iowa,20000.0
999,Nelson,Schneider,s1,east,boarding,F,24-Jan-05,NelsonSchneider@gmail.com,256707200000.0,1000.0,Illinois,20000.0


In [67]:
#Muestro las dimensiones del DataFrame (Numeros de Filas,Numeros de Columnas)
df.shape

(1000, 12)

In [68]:
# Muestro la información detallada del DataFrame, incluyendo tipos de datos y memoria utilizada
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   first_name     1000 non-null   object 
 1   last_name      1000 non-null   object 
 2   class          997 non-null    object 
 3   stream         996 non-null    object 
 4   section        997 non-null    object 
 5   sex            998 non-null    object 
 6   Date_of_birth  996 non-null    object 
 7   email          993 non-null    object 
 8   contact        992 non-null    float64
 9   parent_id      997 non-null    float64
 10  address        996 non-null    object 
 11  fees           990 non-null    float64
dtypes: float64(3), object(9)
memory usage: 93.9+ KB


Comentario adicional para resaltar información específica: Observamos que algunas columnas tienen valores nulos (Non-Null Count menor que el total de entradas),y que hay columnas con tipos de datos variados, incluyendo objetos y flotantes.
Estos detalles son esenciales para comprender la calidad y diversidad de los datos en cada columna.


In [69]:
#Muestro los distintos tipos de datos de las columnas
df.dtypes

first_name        object
last_name         object
class             object
stream            object
section           object
sex               object
Date_of_birth     object
email             object
contact          float64
parent_id        float64
address           object
fees             float64
dtype: object

Comentario adicional para resaltar información específica: Al revisar los tipos de datos, notamos que algunas columnas contienen objetos (strings) mientras que otras contienen valores flotantes. Asegurarse de que los tipos de datos sean apropiados es fundamental para realizar análisis y operaciones futuras.

In [70]:
# Proporciono la cantidad de valores no nulos en cada columna para verificar la integridad de los datos
df.count()

first_name       1000
last_name        1000
class             997
stream            996
section           997
sex               998
Date_of_birth     996
email             993
contact           992
parent_id         997
address           996
fees              990
dtype: int64

Comentario adicional para resaltar información específica: Al contar los valores no nulos en cada columna, identificamos columnas con datos faltantes. Este análisis es esencial para comprender la integridad y la completitud de nuestros datos.


In [71]:
# Muestro la lista de columnas en el DataFrame
df.columns

Index(['first_name', 'last_name', 'class', 'stream', 'section', 'sex',
       'Date_of_birth', 'email', 'contact', 'parent_id', 'address', 'fees'],
      dtype='object')

Comentario adicional para resaltar información específica: La lista de columnas proporciona una visión rápida de los campos presentes en el DataFrame. Es útil para identificar rápidamente las variables disponibles para su análisis.


# Limpieza de Datos

En esta sección, llevamos a cabo la limpieza de datos para asegurar la coherencia y calidad del DataFrame. Dicha limpieza incluye la gestión de valores nulos y la adecuación de tipos de datos, entre otras operaciones,con el fin de preparar los datos de manera óptima para su posterior análisis.


In [72]:
#Muestro una Mascara booleana indicando las posiciones de los valores nulos(True si hay valores nulos,False si no la hay)
df.isna()

Unnamed: 0,first_name,last_name,class,stream,section,sex,Date_of_birth,email,contact,parent_id,address,fees
0,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,True,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
995,False,False,False,False,False,False,False,False,False,False,False,False
996,False,False,False,False,False,False,False,False,False,False,False,False
997,False,False,False,False,False,False,False,False,True,False,False,False
998,False,False,False,False,False,False,False,False,False,False,False,False


In [73]:
#Elimino Filas con valores nulos
df.dropna(inplace = True)

In [74]:
#Muestro la informacion detallacada actualmente
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 961 entries, 0 to 999
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   first_name     961 non-null    object 
 1   last_name      961 non-null    object 
 2   class          961 non-null    object 
 3   stream         961 non-null    object 
 4   section        961 non-null    object 
 5   sex            961 non-null    object 
 6   Date_of_birth  961 non-null    object 
 7   email          961 non-null    object 
 8   contact        961 non-null    float64
 9   parent_id      961 non-null    float64
 10  address        961 non-null    object 
 11  fees           961 non-null    float64
dtypes: float64(3), object(9)
memory usage: 97.6+ KB


In [75]:
df

Unnamed: 0,first_name,last_name,class,stream,section,sex,Date_of_birth,email,contact,parent_id,address,fees
0,Layla,Higgins,s1,west,boarding,F,15-Mar-02,LaylaHaggins@gmail.com,2.567072e+11,1.0,Utah,20000.0
1,Sterling,Arias,s3,south,day,M,04-Jul-03,SterlingArias@gmail.com,2.567072e+11,2.0,Washington,20000.0
2,Aleah,Cummings,s6,north,day,F,22-Nov-01,AleahCummings@gmail.com,2.567072e+11,3.0,Virginia,20000.0
4,Brynn,Hopkins,s1,west,day,M,09-Sep-04,BrynnHopkins@gmail.com,2.567072e+11,5.0,Iowa,20000.0
5,Ali,Beil,s2,south,boarding,M,30-Jun-00,AliBeil@gmail.com,2.567072e+11,6.0,North Carolina,20000.0
...,...,...,...,...,...,...,...,...,...,...,...,...
994,Astrid,Ramos,s1,north,boarding,F,11-May-03,AstridRamos@gmail.com,2.567072e+11,995.0,Oklahoma,20000.0
995,Angel,Anderson,s2,east,day,F,08-Nov-02,AngelAnderson@gmail.com,2.567072e+11,996.0,Tennessee,20000.0
996,Ella,Shields,s4,west,day,M,02-Feb-04,EllaShields@gmail.com,2.567072e+11,997.0,Oregon,20000.0
998,Lyla,Harrell,s6,north,day,M,06-Apr-00,LylaHarrell@gmail.com,2.567072e+11,999.0,Iowa,20000.0


In [76]:
#Verifico si hay en todo el DataFrame filas duplicadas (True si la hay,False si no la hay)
df.duplicated().any()

False

In [77]:
#Guardo el Archivo Limpio
df.to_csv('students_clean.csv',index = False)