# Cargando un DataFrame desde un archivo

Construimos el DataFrame a partir de algunos arreglos existentes. Sin embargo, en muchos escenarios del mundo real, los datos se cargan desde fuentes como archivos. Reemplacemos el DataFrame de calificaciones de los estudiantes con el contenido de un archivo de texto.

In [2]:
import pandas as pd
import requests

url = "https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv"
response = requests.get(url)

# Verificar si la descarga fue exitosa
if response.status_code == 200:
    with open('grades.csv', 'wb') as file:
        file.write(response.content)
    df_students = pd.read_csv('grades.csv', delimiter=',', header='infer')
    df_students.head()
else:
    print("No se pudo descargar el archivo")
    
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


El método read_csv de DataFrame se usa para cargar datos de archivos de texto. Como puede ver en el código de ejemplo, puede especificar opciones como el delimitador de columna y qué fila (si la hay) contiene encabezados de columna. (En este caso, el delimitador es una coma y la primera fila contiene los nombres de las columnas. Estas son las configuraciones predeterminadas, por lo que podríamos haber omitido los parámetros).

# Manejo de valores faltantes
Uno de los problemas más comunes con los que deben lidiar los científicos de datos son los datos incompletos o faltantes. Entonces, ¿cómo sabríamos que el DataFrame contiene valores faltantes? Puede usar el método isnull para identificar qué valores individuales son nulos, así:

In [3]:
df_students.isnull()

Unnamed: 0,Name,StudyHours,Grade
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


Por supuesto, con un DataFrame más grande, sería ineficiente revisar todas las filas y columnas de forma individual, por lo que podemos obtener la suma de los valores faltantes para cada columna de esta manera:

In [4]:
df_students.isnull().sum()

Name          0
StudyHours    1
Grade         2
dtype: int64

Así que ahora sabemos que falta un valor de StudyHours y dos valores de Grade faltantes.

Para verlos en contexto, podemos filtrar el DataFrame para incluir solo filas donde cualquiera de las columnas (eje 1 del DataFrame) es nula.

In [5]:
df_students[df_students.isnull().any(axis=1)]

Unnamed: 0,Name,StudyHours,Grade
22,Bill,8.0,
23,Ted,,


Cuando se recupera el DataFrame, los valores numéricos que faltan se muestran como NaN (no un número).

Entonces, ahora que hemos encontrado los valores nulos, ¿qué podemos hacer al respecto?

Un enfoque común es imputar valores de reemplazo. Por ejemplo, si falta el número de horas de estudio, podríamos suponer que el estudiante estudió durante una cantidad de tiempo promedio y reemplazar el valor que falta con el promedio de horas de estudio. Para hacer esto, podemos usar el método fillna, así:

In [6]:
df_students.StudyHours = df_students.StudyHours.fillna(df_students.StudyHours.mean())
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Alternativamente, puede ser importante asegurarse de que solo usa datos que sabe que son absolutamente correctos. En este caso, puede eliminar filas o columnas que contengan valores nulos mediante el método dropna. Por ejemplo, eliminaremos filas (eje 0 del DataFrame) donde cualquiera de las columnas contenga valores nulos:

In [7]:
df_students = df_students.dropna(axis=0, how='any')
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


# Explorar datos en el DataFrame
Ahora que hemos limpiado los valores faltantes, estamos listos para explorar los datos en el DataFrame. Empecemos por comparar las horas medias de estudio y las notas.

In [8]:
# Get the mean study hours using to column name as an index
mean_study = df_students['StudyHours'].mean()

# Get the mean grade using the column name as a property (just to make the point!)
mean_grade = df_students.Grade.mean()

# Print the mean study hours and mean grade
print('Average weekly study hours: {:.2f}\nAverage grade: {:.2f}'.format(mean_study, mean_grade))

Average weekly study hours: 10.52
Average grade: 49.18


Bien, filtremos el DataFrame para encontrar solo a los estudiantes que estudiaron por más tiempo que el promedio.

In [9]:
# Get students who studied for the mean or more hours
df_students[df_students.StudyHours > mean_study]

Unnamed: 0,Name,StudyHours,Grade
1,Joann,11.5,50.0
3,Rosie,16.0,97.0
6,Frederic,11.5,53.0
9,Giovanni,14.5,74.0
10,Francesca,15.5,82.0
11,Rajab,13.75,62.0
14,Jenny,15.5,70.0
19,Skye,12.0,52.0
20,Daniel,12.5,63.0
21,Aisha,12.0,64.0


Tenga en cuenta que el resultado filtrado es en sí mismo un DataFrame, por lo que puede trabajar con sus columnas como cualquier otro DataFrame.

Por ejemplo, busquemos la calificación promedio de los estudiantes que dedicaron más tiempo de estudio que el promedio.

In [10]:
# What was their mean grade?
df_students[df_students.StudyHours > mean_study].Grade.mean()

66.7

Supongamos que la calificación aprobatoria para el curso es 60.

Podemos usar esa información para agregar una nueva columna al DataFrame que indique si cada estudiante aprobó o no.

Primero, crearemos una Serie Pandas que contenga el indicador de aprobación/rechazo (Verdadero o Falso), y luego concatenaremos esa serie como una nueva columna (eje 1) en el DataFrame.

In [11]:
passes  = pd.Series(df_students['Grade'] >= 60)
df_students = pd.concat([df_students, passes.rename("Pass")], axis=1)

df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
0,Dan,10.0,50.0,False
1,Joann,11.5,50.0,False
2,Pedro,9.0,47.0,False
3,Rosie,16.0,97.0,True
4,Ethan,9.25,49.0,False
5,Vicky,1.0,3.0,False
6,Frederic,11.5,53.0,False
7,Jimmie,9.0,42.0,False
8,Rhonda,8.5,26.0,False
9,Giovanni,14.5,74.0,True


Los marcos de datos están diseñados para datos tabulares y puede usarlos para realizar muchos de los mismos tipos de operaciones de análisis de datos que puede realizar en una base de datos relacional, como agrupar y agregar tablas de datos.

Por ejemplo, puede usar el método groupby para agrupar los datos de los estudiantes en grupos según la columna Aprobado que agregó anteriormente y para contar la cantidad de nombres en cada grupo. En otras palabras, puede determinar cuántos estudiantes aprobaron y reprobaron.

In [12]:
print(df_students.groupby(df_students.Pass).Name.count())

Pass
False    15
True      7
Name: Name, dtype: int64


Puede agregar varios campos en un grupo utilizando cualquier función de agregación disponible. Por ejemplo, puede encontrar el tiempo medio de estudio y la calificación de los grupos de estudiantes que aprobaron y reprobaron el curso.

In [13]:
print(df_students.groupby(df_students.Pass)['StudyHours', 'Grade'].mean())

       StudyHours      Grade
Pass                        
False    8.783333  38.000000
True    14.250000  73.142857


  print(df_students.groupby(df_students.Pass)['StudyHours', 'Grade'].mean())


Los DataFrames son increíblemente versátiles y facilitan la manipulación de datos. Muchas operaciones de DataFrame devuelven una nueva copia de DataFrame, por lo que si desea modificar un DataFrame pero mantener la variable existente, debe asignar el resultado de la operación a la variable existente. Por ejemplo, el siguiente código ordena los datos de los estudiantes en orden descendente por Grado y asigna el DataFrame ordenado resultante a la variable original df_students.

In [14]:
# Create a DataFrame with the data sorted by Grade (descending)
df_students = df_students.sort_values('Grade', ascending=False)

# Show the DataFrame
df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
3,Rosie,16.0,97.0,True
10,Francesca,15.5,82.0,True
9,Giovanni,14.5,74.0,True
14,Jenny,15.5,70.0,True
21,Aisha,12.0,64.0,True
20,Daniel,12.5,63.0,True
11,Rajab,13.75,62.0,True
6,Frederic,11.5,53.0,False
19,Skye,12.0,52.0,False
1,Joann,11.5,50.0,False


# Resumen
NumPy y DataFrames son los caballos de batalla de la ciencia de datos en Python. Nos proporcionan formas de cargar, explorar y analizar datos tabulares. Como aprenderemos en módulos posteriores, incluso los métodos de análisis avanzados suelen depender de NumPy y Pandas para estas importantes funciones.
