<a href="https://colab.research.google.com/github/DMichelA/Extraccion-de-conocimientos-de-base-de-datos/blob/main/Explore%20and%20analyse%20data%20with%20Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción

Como era de esperar, el papel de un científico de datos implica principalmente explorar y analizar datos. Los resultados de un análisis pueden formar la base de un informe o un modelo de aprendizaje automático, pero todo comienza con los datos, siendo Python el lenguaje de programación más popular para los científicos de datos.

Después de décadas de desarrollo de código abierto, Python proporciona una amplia funcionalidad con potentes bibliotecas estadísticas y numéricas:


*   NumPy y Pandas simplifican el análisis y la manipulación de datos
*   Matplotlib proporciona atractivas visualizaciones de datos
*   Scikit-learn ofrece un análisis predictivo de datos simple y efectivo
*   TensorFlow y PyTorch proporcionan capacidades de aprendizaje automático y aprendizaje profundo

Por lo general, un proyecto de análisis de datos está diseñado para establecer ideas sobre un escenario en particular o para probar una hipótesis.

Por ejemplo, supongamos que un profesor universitario recopila datos de sus estudiantes, incluido el número de conferencias a las que asistió, las horas dedicadas a estudiar y la calificación final lograda al final del examen de fin de trimestre. El profesor podría analizar los datos para determinar si existe una relación entre la cantidad de estudios que realiza un estudiante y la calificación final que obtiene. El profesor podría usar los datos para probar una hipótesis de que solo los estudiantes que estudian durante un número mínimo de horas pueden esperar lograr una calificación aprobatoria.

# Explora datos con NumPy y Pandas
Los científicos de datos pueden usar varias herramientas y técnicas para explorar, visualizar y manipular datos. Una de las formas más comunes en que los científicos de datos trabajan con datos es usar el lenguaje Python y algunos paquetes específicos para el procesamiento de datos.

# ¿Que es NumPy?
NumPy es una biblioteca de Python que proporciona una funcionalidad comparable a herramientas matemáticas como MATLAB y R. Si bien NumPy simplifica significativamente la experiencia del usuario, también ofrece funciones matemáticas integrales.

# ¿Que es Pandas?
Pandas es una biblioteca de Python extremadamente popular para el análisis y la manipulación de datos. Pandas es como Excel para Python: proporciona una funcionalidad fácil de usar para las tablas de datos.

# Explorar datos en un bloc de notas de Jupyter
Los blocs de notas jupyter son una forma popular de ejecutar scripts básicos utilizando su navegador web. Normalmente, estos blocs de notas son una sola página web, dividida en secciones de texto y secciones de código que se ejecutan en el servidor en lugar de en el equipo local. Esto significa que puede comenzar rápidamente sin necesidad de instalar Python u otras herramientas.

# Hipótesis de prueba
La exploración y el análisis de datos suelen ser un proceso iterativo, en el que el científico de datos toma una muestra de datos y realiza los siguientes tipos de tareas para analizarlos y probar hipótesis:


*   Limpie los datos para controlar errores, valores faltantes y otros problemas.
*   Aplicar técnicas estadísticas para comprender mejor los datosy cómo se podría esperar que la muestra represente a la población de datos del mundo real, lo que permite la variación aleatoria.
*   Visualice los datos para determinar las relaciones entre las variables y, en el caso de un proyecto de aprendizaje automático, identifique las características que son potencialmente predictivas de la etiqueta.
*   Revisa la hipótesis y repite el proceso.







# Ejercicio - Explora datos con NumPy y Pandas

## Exploración de datos con Python
Una parte importante del papel de un científico de datos es explorar, analizar y visualizar datos. Hay una amplia gama de herramientas y lenguajes de programación que pueden usar para hacer esto; y de los enfoques más populares es usar cuadernos Jupyter (como este) y Python.

Python es un lenguaje de programación flexible que se utiliza en una amplia gama de escenarios; desde aplicaciones web hasta programación de dispositivos. Es extremadamente popular en la comunidad de ciencia de datos y aprendizaje automático debido a los muchos paquetes que admite para el análisis y la visualización de datos.

En este cuaderno, exploraremos algunos de estos paquetes y aplicaremos técnicas básicas para analizar datos. Esto no pretende ser un ejercicio integral de programación de Python; o incluso una inmersión profunda en el análisis de datos. Más bien, está pensado como un curso intensivo en algunas de las formas comunes en que los científicos de datos pueden usar Python para trabajar con datos.



## Exploración de matrices de datos con NumPy
Comencemos por ver algunos datos simples.

Supongamos que una universidad toma una muestra de las calificaciones de los estudiantes para una clase de ciencia de datos.

In [1]:
data = [50,50,47,97,49,3,53,42,26,74,82,62,37,15,70,27,36,35,48,52,63,64]
print(data)

[50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]


Los datos se han cargado en una estructura de lista de Python, que es un buen tipo de datos para la manipulación general de datos, pero no está optimizado para el análisis numérico. Para eso, vamos a usar el paquete NumPy, que incluye tipos de datos y funciones específicas para trabajar con Numbers en Python.

Ejecute la celda siguiente para cargar los datos en una matrizNumPy.

In [2]:
import numpy as np

grades = np.array(data)
print(grades)

[50 50 47 97 49  3 53 42 26 74 82 62 37 15 70 27 36 35 48 52 63 64]


En caso de que te estés preguntando sobre las diferencias entre una lista y una matrizNumPy, comparemos cómo se comportan estos tipos de datos cuando los usamos en una expresión que los multiplica por 2.

In [3]:
print (type(data),'x 2:', data * 2)
print('---')
print (type(grades),'x 2:', grades * 2)

<class 'list'> x 2: [50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64, 50, 50, 47, 97, 49, 3, 53, 42, 26, 74, 82, 62, 37, 15, 70, 27, 36, 35, 48, 52, 63, 64]
---
<class 'numpy.ndarray'> x 2: [100 100  94 194  98   6 106  84  52 148 164 124  74  30 140  54  72  70
  96 104 126 128]


Tenga en cuenta que multiplicar una lista por 2 crea una nueva lista del doble de longitud con la secuencia original de elementos de lista repetida. Multiplicar una matriz NumPy por otro lado realiza un cálculo por elementos en el que la matriz se comporta como un vector,por lo que terminamos con una matriz del mismo tamaño en la que cada elemento se ha multiplicado por 2.

La conclusión clave de esto es que las matrices NumPy están diseñadas específicamente para admitir operaciones matemáticas en datos numéricos, lo que las hace más útiles para el análisis de datos que una lista genérica.

Es posible que haya detectado que el tipo de clase para la matriz numpy anterior es numpy.ndarray. El nd indica que esta es una estructura que puede consistir en múltiples dimensiones (puede tener n dimensiones). Nuestra instancia específica tiene una dimensión única de las calificaciones de los estudiantes.

Ejecute la celda siguiente para ver la forma de la matriz.

In [4]:
grades.shape

(22,)

La forma confirma que esta matriz tiene una sola dimensión, que contiene 22 elementos (hay 22 grados en la lista original). Puede acceder a los elementos individuales de la matriz por su posición ordinal basada en cero. Obtengamos el primer elemento (el de la posición 0).

In [5]:
grades[0]

50

Muy bien, ahora que conoce su camino alrededor de una matriz NumPy, es hora de realizar un análisis de los datos de calificaciones.

Puede aplicar agregaciones a través de los elementos de la matriz, así que busquemos la calificación promedio simple (en otras palabras, el valor de calificación media).



In [6]:
grades.mean()

49.18181818181818

Por lo tanto, la calificación media es de alrededor de 50, más o menos en el medio del rango posible de 0 a 100.

Agreguemos un segundo conjunto de datos para los mismos estudiantes, esta vez registrando el número típico de horas por semana que dedicaron a estudiar.

In [7]:
# Definir una matriz de horas de estudio
study_hours = [10.0,11.5,9.0,16.0,9.25,1.0,11.5,9.0,8.5,14.5,15.5,
               13.75,9.0,8.0,15.5,8.0,9.0,6.0,10.0,12.0,12.5,12.0]

# Crear una matriz 2D (una matriz de matrices)
student_data = np.array([study_hours, grades])

# Mostrar la matriz
student_data

array([[10.  , 11.5 ,  9.  , 16.  ,  9.25,  1.  , 11.5 ,  9.  ,  8.5 ,
        14.5 , 15.5 , 13.75,  9.  ,  8.  , 15.5 ,  8.  ,  9.  ,  6.  ,
        10.  , 12.  , 12.5 , 12.  ],
       [50.  , 50.  , 47.  , 97.  , 49.  ,  3.  , 53.  , 42.  , 26.  ,
        74.  , 82.  , 62.  , 37.  , 15.  , 70.  , 27.  , 36.  , 35.  ,
        48.  , 52.  , 63.  , 64.  ]])

Ahora los datos consisten en una matriz de 2 dimensiones, una matriz de matrices. Veamos su forma.

In [8]:
# Mostrar la forma de la matriz 2D
student_data.shape

(2, 22)

La matriz student_data contiene dos elementos, cada uno de los cuales es una matriz que contiene 22 elementos.

Para navegar por esta estructura, debe especificar la posición de cada elemento en la jerarquía. Por lo tanto, para encontrar el primer valor en la primera matriz (que contiene los datos de las horas de estudio), puede usar el siguiente código.

In [9]:
# Mostrar el primer elemento del primer elemento
student_data[0][0]

10.0

Ahora tiene una matriz multidimensional que contiene tanto el tiempo de estudio del estudiante como la información de calificación, que puede usar para comparar datos. Por ejemplo, ¿cómo se compara el tiempo medio de estudio con la calificación media?

In [11]:
# Obtener el valor de la media de cada matriz
avg_study = student_data[0].mean()
avg_grade = student_data[1].mean()

print('Average study hours: {:.2f}\nAverage grade: {:.2f}'.format(avg_study, avg_grade))

Average study hours: 10.52
Average grade: 49.18


## Explorando datos tabulares con Pandas
Mientras que NumPy proporciona una gran parte de la funcionalidad que necesita para trabajar con números, y específicamente matrices de valores numéricos; cuando comienzas a tratar con tablas de datos bidimensionales, el paquete Pandas ofrece una estructura más conveniente para trabajar: el DataFrame.

Ejecute la siguiente celda para importar la biblioteca Pandas y crear un DataFrame con tres columnas. La primera columna es una lista de nombres de estudiantes, y la segunda y tercera columnas son las matrices NumPy que contienen el tiempo de estudio y los datos de calificación.

In [12]:
import pandas as pd

df_students = pd.DataFrame({'Name': ['Dan', 'Joann', 'Pedro', 'Rosie', 'Ethan', 'Vicky', 'Frederic', 'Jimmie', 
                                     'Rhonda', 'Giovanni', 'Francesca', 'Rajab', 'Naiyana', 'Kian', 'Jenny',
                                     'Jakeem','Helena','Ismat','Anila','Skye','Daniel','Aisha'],
                            'StudyHours':student_data[0],
                            'Grade':student_data[1]})

df_students 

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Tenga en cuenta que, además de las columnas especificadas, dataframe incluye un índice para identificar de forma única cada fila. Podríamos haber especificado el índice explícitamente y asignado cualquier tipo de valor apropiado (por ejemplo, una dirección de correo electrónico); pero como no especificamos un índice, se ha creado uno con un valor entero único para cada fila.

## Búsqueda y filtrado de datos en un DataFrame
Puede utilizar el método loc de DataFrame para recuperar datos de un valor de índice específico, como este.

In [13]:
# Obtener los datos para el valor de índice 5
df_students.loc[5]

Name          Vicky
StudyHours        1
Grade             3
Name: 5, dtype: object

También puede obtener los datos en un rango de valores de índice, como este:

In [14]:
# Obtener las filas con valores de índice de 0 a 5 
df_students.loc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0


Además de poder usar el método loc para buscar filas basadas en el índice, puede usar el método iloc para encontrar filas basadas en su posición ordinal en el DataFrame (independientemente del índice):

In [15]:
# Obtener datos en las primeras cinco filas
df_students.iloc[0:5]

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


Mire cuidadosamente los resultados y compárelos con los resultados que obtuvo anteriormente. ¿Puedes detectar la diferencia?iloc[0:5]loc[0:5]

El método loc devolvió filas con etiqueta de índice en la lista de valores de 0 a 5, que incluye 0, 1, 2, 3, 4y 5 (seis filas). Sin embargo, el método iloc devuelve las filas en las posiciones incluidas en el rango de 0 a 5, y dado que los rangos enteros no incluyen el valor de límite superior, esto incluye las posiciones 0, 1, 2, 3y 4 (cinco filas).

iloc identifica los valores de datos en un DataFrame por posición,que se extiende más allá de las filas a las columnas. Entonces, por ejemplo, puede usarlo para encontrar los valores de las columnas en las posiciones 1 y 2 en la fila 0, así:

In [16]:
df_students.iloc[0,[1,2]]

StudyHours    10
Grade         50
Name: 0, dtype: object

Volvamos al método loc y veamos cómo funciona con las columnas. Recuerde que loc se utiliza para localizar elementos de datos en función de los valores del índice en lugar de las posiciones. En ausencia de una columna de índice explícita, las filas de nuestro marco de datos se indexan como valores enteros, pero las columnas se identifican por su nombre:

In [17]:
df_students.loc[0,'Grade']

50.0

Aquí hay otro truco útil. Puede utilizar el método loc para buscar filas indadas basadas en una expresión de filtrado que haga referencia a columnas con nombre distintas del índice, como se indica a continuación:

In [18]:
df_students.loc[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


En realidad, no es necesario usar explícitamente el método loc para hacer esto, simplemente puede aplicar una expresión de filtrado DataFrame, como esta:

In [19]:
df_students[df_students['Name']=='Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Y para una buena medida, puede lograr los mismos resultados utilizando el método de consulta de DataFrame, como este:

In [20]:
df_students.query('Name=="Aisha"')

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


Los tres ejemplos anteriores subrayan una verdad ocasionalmente confusa sobre el trabajo con Pandas. A menudo, hay múltiples formas de lograr los mismos resultados. Otro ejemplo de esto es la forma en que se hace referencia a un nombre de columna DataFrame. Puede especificar el nombre de la columna como un valor de índice con nombre (como en los ejemplos que hemos visto hasta ahora), o puede usar la columna como una propiedad del DataFrame, de la siguiente manera:df_students['Name']

In [21]:
df_students[df_students.Name == 'Aisha']

Unnamed: 0,Name,StudyHours,Grade
21,Aisha,12.0,64.0


## Carga de un DataFrame desde un archivo
Construimos el DataFrame a partir de algunas matrices existentes. Sin embargo, en muchos escenarios del mundo real, los datos se cargan desde fuentes como archivos. Reemplacemos las calificaciones del estudiante DataFrame con el contenido de un archivo de texto.

In [22]:
!wget https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
df_students = pd.read_csv('grades.csv',delimiter=',',header='infer')
df_students.head()

--2021-10-02 06:11:18--  https://raw.githubusercontent.com/MicrosoftDocs/mslearn-introduction-to-machine-learning/main/Data/ml-basics/grades.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 322 [text/plain]
Saving to: ‘grades.csv’


2021-10-02 06:11:18 (16.9 MB/s) - ‘grades.csv’ saved [322/322]



Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0


El método read_csv de DataFrame se utiliza para cargar datos de archivos de texto. Como puede ver en el código de ejemplo, puede especificar opciones como el delimitador de columnas y qué fila (si la hay) contiene encabezados de columna (en este caso, el delimitador es una coma y la primera fila contiene los nombres de columna; estos son los ajustes predeterminados, por lo que los parámetros podrían haberse omitido).

## Manejo de valores faltantes
Uno de los problemas más comunes con los que los científicos de datos deben lidiar es con datos incompletos o faltantes. Entonces, ¿cómo sabríamos que el DataFrame contiene valores faltantes? Puede utilizar el método isnull para identificar qué valores individuales son nulos, de la siguiente manera:

In [23]:
df_students.isnull()

Unnamed: 0,Name,StudyHours,Grade
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
5,False,False,False
6,False,False,False
7,False,False,False
8,False,False,False
9,False,False,False


Por supuesto, con un DataFrame más grande, sería ineficiente revisar todas las filas y columnas individualmente; así podemos obtener la suma de los valores faltantes para cada columna, así:

In [24]:
df_students.isnull().sum()

Name          0
StudyHours    1
Grade         2
dtype: int64

Así que ahora sabemos que falta un valor de StudyHours y faltan dos valores de Grade.

Para verlos en contexto, podemos filtrar el dataframe para incluir solo filas donde cualquiera de las columnas (eje 1 del DataFrame) sea nula.

In [25]:
df_students[df_students.isnull().any(axis=1)]

Unnamed: 0,Name,StudyHours,Grade
22,Bill,8.0,
23,Ted,,


Cuando se recupera el DataFrame, los valores numéricos que faltan aparecen como NaN (no un número).

Entonces, ahora que hemos encontrado los valores nulos, ¿qué podemos hacer al respecto?

Un enfoque común es imputar valores de reemplazo. Por ejemplo, si falta el número de horas de estudio, podríamos asumir que el estudiante estudió durante un período promedio de tiempo y reemplazar el valor faltante con la media de horas de estudio. Para ello, podemos utilizar el método fillna, así:

In [26]:
df_students.StudyHours = df_students.StudyHours.fillna(df_students.StudyHours.mean())
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


Alternativamente, puede ser importante asegurarse de que solo use datos que sepa que son absolutamente correctos; por lo que puede colocar filas o columnas que contengan valores nulos mediante el método dropna. En este caso, eliminaremos las filas (eje 0 del DataFrame) donde cualquiera de las columnas contenga valores nulos.

In [27]:
df_students = df_students.dropna(axis=0, how='any')
df_students

Unnamed: 0,Name,StudyHours,Grade
0,Dan,10.0,50.0
1,Joann,11.5,50.0
2,Pedro,9.0,47.0
3,Rosie,16.0,97.0
4,Ethan,9.25,49.0
5,Vicky,1.0,3.0
6,Frederic,11.5,53.0
7,Jimmie,9.0,42.0
8,Rhonda,8.5,26.0
9,Giovanni,14.5,74.0


## Explorar datos en dataFrame
Ahora que hemos limpiado los valores que faltan, estamos listos para explorar los datos en el DataFrame. Comencemos comparando las horas medias de estudio y las calificaciones.

In [29]:
# Obtener la media de horas de estudio usando el nombre de la columna como índice
mean_study = df_students['StudyHours'].mean()

# Obtener la calificación media usando el nombre de la columna como una propiedad práctica (¡Solo para aclarar el punto!)
mean_grade = df_students.Grade.mean()

# Imprimir la media de horas de estudio y la calificación media
print('Average weekly study hours: {:.2f}\nAverage grade: {:.2f}'.format(mean_study, mean_grade))

Average weekly study hours: 10.52
Average grade: 49.18


De acuerdo, filtremos el DataFrame para encontrar solo a los estudiantes que estudiaron durante más de la cantidad promedio de tiempo.

In [30]:
# Obtener estudiantes que estudiaron durante la media o más horas
df_students[df_students.StudyHours > mean_study]

Unnamed: 0,Name,StudyHours,Grade
1,Joann,11.5,50.0
3,Rosie,16.0,97.0
6,Frederic,11.5,53.0
9,Giovanni,14.5,74.0
10,Francesca,15.5,82.0
11,Rajab,13.75,62.0
14,Jenny,15.5,70.0
19,Skye,12.0,52.0
20,Daniel,12.5,63.0
21,Aisha,12.0,64.0


Tenga en cuenta que el resultado filtrado es en sí mismo un DataFrame, por lo que puede trabajar con sus columnas como cualquier otro DataFrame.

Por ejemplo, encontremos la calificación promedio de los estudiantes que realizaron más que la cantidad promedio de tiempo de estudio.

In [31]:
# ¿Cuál fue su calificación media?
df_students[df_students.StudyHours > mean_study].Grade.mean()

66.7


Supongamos que la calificación aprobatoria para el curso es de 60.

Podemos usar esa información para agregar una nueva columna al DataFrame, indicando si cada estudiante aprobó o no.

Primero, crearemos una serie de Pandas que contenga el indicador de aprobación/falla (True o False), y luego concatenaremos esa serie como una nueva columna (eje 1) en el DataFrame.

In [32]:
passes  = pd.Series(df_students['Grade'] >= 60)
df_students = pd.concat([df_students, passes.rename("Pass")], axis=1)

df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
0,Dan,10.0,50.0,False
1,Joann,11.5,50.0,False
2,Pedro,9.0,47.0,False
3,Rosie,16.0,97.0,True
4,Ethan,9.25,49.0,False
5,Vicky,1.0,3.0,False
6,Frederic,11.5,53.0,False
7,Jimmie,9.0,42.0,False
8,Rhonda,8.5,26.0,False
9,Giovanni,14.5,74.0,True


Los DataFrames están diseñados para datos tabulares, y puede usarlos para realizar muchos de los tipos de operaciones de análisis de datos que puede realizar en una base de datos relacional; como agrupar y agregar tablas de datos.

Por ejemplo, puede usar el método groupby para agrupar los datos de los estudiantes en grupos basados en la columna Aprobado que agregó anteriormente y contar el número de nombres en cada grupo, en otras palabras, puede determinar cuántos estudiantes aprobaron y reprobaron.

In [33]:
print(df_students.groupby(df_students.Pass).Name.count())

Pass
False    15
True      7
Name: Name, dtype: int64


Puede agregar varios campos en un grupo utilizando cualquier función de agregación disponible. Por ejemplo, puede encontrar el tiempo medio de estudio y la calificación de los grupos de estudiantes que aprobaron y reprobaron el curso.

In [34]:
print(df_students.groupby(df_students.Pass)['StudyHours', 'Grade'].mean())

       StudyHours      Grade
Pass                        
False    8.783333  38.000000
True    14.250000  73.142857


  """Entry point for launching an IPython kernel.


Los DataFrames son increíblemente versátiles y facilitan la manipulación de datos. Muchas operaciones de DataFrame devuelven una nueva copia del DataFrame; por lo tanto, si desea modificar un DataFrame pero mantener la variable existente, debe asignar el resultado de la operación a la variable existente. Por ejemplo, el código siguiente ordena los datos del alumno en orden descendente de Grade y asigna el DataFrame ordenado resultante a la variable df_students original.

In [35]:
# Crear un DataFrame con los datos ordenados por calificación (descendente)
df_students = df_students.sort_values('Grade', ascending=False)

# Mostrar el DataFrame
df_students

Unnamed: 0,Name,StudyHours,Grade,Pass
3,Rosie,16.0,97.0,True
10,Francesca,15.5,82.0,True
9,Giovanni,14.5,74.0,True
14,Jenny,15.5,70.0,True
21,Aisha,12.0,64.0,True
20,Daniel,12.5,63.0,True
11,Rajab,13.75,62.0,True
6,Frederic,11.5,53.0,False
19,Skye,12.0,52.0,False
1,Joann,11.5,50.0,False


## Resumen
¡Eso es todo por ahora!

Numpy y DataFrames son los caballos de batalla de la ciencia de datos en Python. Nos proporcionan formas de cargar, explorar y analizar datos tabulares. Como veremos en módulos posteriores, incluso los métodos de análisis avanzados suelen depender de Numpy y Pandas para estos importantes roles.

En nuestro próximo libro de trabajo, echaremos un vistazo a cómo crear gráficos y explorar sus datos de maneras más interesantes.