<a href="https://colab.research.google.com/github/AngelLuna476/pandas-conociendo-la-biblioteca/blob/main/ejercicio_extra__pandas_conociendo_biblioteca.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Parte #1

Para practicar los métodos aprendidos a lo largo de esta lección y aprender nuevos, realizaremos algunos análisis utilizando un archivo CSV diferente: alumnos.csv.

1. Importa el archivo alumnos.csv y almacena su contenido en un DataFrame de Pandas.

2. Visualiza las primeras 7 filas del DataFrame y las últimas 5.

3. Verifica la cantidad de filas y columnas en este DataFrame.

4. Explora las columnas del DataFrame y analiza los tipos de datos presentes en cada columna.

Extra: Calcula algunas estadísticas descriptivas básicas de los datos en el DataFrame (media, desviación estándar, etc.). Pista: busca el método "describe".

## 1. Para importar el archivo en cuestión y guardarlo en un DataFrame, podemos importar la biblioteca Pandas y utilizar la función read_csv() pasando la URL donde se encuentra el archivo:

In [30]:
import pandas as pd
url ='https://gist.githubusercontent.com/ahcamachod/807a2c1cf6c19108b2b701ea1791ab45/raw/fb84f8b2d8917a89de26679eccdbc8f9c1d2e933/alumnos.csv'

datos = pd.read_csv(url)


## 2. Cuando queremos ver las primeras y últimas filas de un DataFrame, podemos utilizar los métodos head y tail:

In [31]:
datos.head(7)
datos.tail()

Unnamed: 0,Nombre,Edad,Nota,Aprobado
13,Miriam,25,9.0,True
14,Pablo,37,,False
15,Milena,29,7.0,True
16,Lucas,33,,False
17,Nadia,34,8.0,Verdadero


## 3. Tanto el atributo shape como el método info nos proporcionan la cantidad de filas y columnas en un DataFrame. El info también muestra información adicional, por lo que utilizaremos shape aquí:

In [32]:
datos.shape

(18, 4)

## 4. En este momento, podemos usar .columns para ver las columnas presentes en el DataFrame. Además, también podemos seleccionar columnas específicas utilizando corchetes "[]". Para ver los tipos de datos en cada columna, esta vez opté por utilizar un atributo llamado dtypes:

In [33]:
# Visualizar los nombres de las columnas
datos.columns

# Seleccionar una columna
datos['Nombre']

# Seleccionar múltiples columnas
datos[['Edad', 'Nota']]

# Verificar los tipos de datos en cada columna
datos.dtypes

Unnamed: 0,0
Nombre,object
Edad,int64
Nota,float64
Aprobado,object


## **Extra:** Como la sugerencia misma mencionó, podemos utilizar un método de Pandas llamado describe para calcular algunas estadísticas descriptivas básicas de los datos en el DataFrame:

In [34]:
datos.describe()

Unnamed: 0,Edad,Nota
count,18.0,12.0
mean,25.5,6.841667
std,6.070662,2.264532
min,18.0,2.5
25%,21.0,5.45
50%,24.5,7.0
75%,28.75,8.25
max,37.0,10.0


_El método describe() es una de las funciones más útiles de Pandas para el análisis exploratorio de datos. Se utiliza para calcular algunas estadísticas descriptivas básicas de los datos en un DataFrame o en una columna específica de un DataFrame._

# Parte #2

Resolvamos los problemas propuestos a continuación utilizando los conocimientos adquiridos hasta ahora.

1. Verifica si la base de datos contiene datos nulos y, en caso de tenerlos, realiza el tratamiento de estos datos nulos de la manera que consideres más coherente con la situación.

2. Los estudiantes "Alicia" y "Carlos" ya no forman parte del grupo. Por lo tanto, elimínalos de la base de datos.

3. Aplica un filtro que seleccione solo a los estudiantes que fueron aprobados.

4. Guarda el DataFrame que contiene solo a los estudiantes aprobados en un archivo CSV llamado "alumnos_aprobados.csv".

Extra: Al revisar las calificaciones de los estudiantes aprobados, notamos que algunas calificaciones eran incorrectas. Las estudiantes que obtuvieron una calificación de 7.0, en realidad tenían un punto extra que no se contabilizó. Por lo tanto, reemplaza las calificaciones de 7.0 en la base de datos por 8.0. Consejo: busca el método replace.



## 1 - Podemos comenzar verificando la existencia de datos nulos:

In [35]:
datos.isnull().sum()

Unnamed: 0,0
Nombre,0
Edad,0
Nota,6
Aprobado,0


Con el resultado, notaremos que solo la columna "Nota" contiene datos nulos. En este caso, podemos suponer que los estudiantes sin calificación probablemente tenían un 0. Por lo tanto, podemos reemplazar los valores nulos por 0:

In [36]:
datos = datos.fillna(0)

## 2 - Para eliminar a los estudiantes "Alicia" y "Carlos" de nuestra base de datos, necesitamos obtener los índices de las filas donde se encuentran sus nombres y utilizar el método drop para eliminar las filas respectivas:

In [37]:
# Guardamos los índices de las filas a eliminar en una variable
alumnos_a_eliminar = datos.query('Nombre == "Alicia" | Nombre == "Carlos"').index

# Eliminamos las filas correspondientes a los estudiantes "Alicia" y "Carlos"
datos.drop(alumnos_a_eliminar, axis=0, inplace=True)

## 3 - En este caso, nuestro primer paso es crear una variable en la que seleccionamos solo a los estudiantes aprobados:

In [38]:
seleccion = datos['Aprobado'] == True

## Hecho esto, podemos aplicar esta selección a nuestro DataFrame:

datos[seleccion]
datos.head()

Unnamed: 0,Nombre,Edad,Nota,Aprobado
0,Alberto,20,7.5,True
1,Ana,18,0.0,False
2,Camila,27,2.5,False
3,David,18,5.0,False
4,Brian,21,10.0,True


## 4 - Para guardar el DataFrame con solo los estudiantes aprobados, podemos comenzar guardando el DataFrame resultante del desafío 3 en una variable:

In [39]:
alumnos_aprobados = datos[seleccion]

##Luego, podemos usar el método to_csv para guardarlo en formato CSV:

## alumnos_aprobados.to_csv('alumnos_aprobados.csv', index=False)


## Extra: El método replace se utiliza para reemplazar un valor específico por otro. En el caso de nuestra base de datos, queremos reemplazar los valores 7.0 por 8.0. Para hacerlo, podemos usar el siguiente fragmento de código:

In [40]:
alumnos_aprobados.replace(7.0, 8.0)

##Y para guardar este cambio de forma definitiva, podemos asignarlo a nuestra variable:
alumnos_aprobados = alumnos_aprobados.replace(7.0, 8.0)


# PARTE #3

Este archivo es el mismo que se utilizó para resolver los desafíos de las aulas 1 y 3 y contiene datos de estudiantes de un curso superior. Con base en esto, resolvamos los problemas propuestos a continuación utilizando los conocimientos adquiridos hasta ahora.

1. Los estudiantes participaron en una actividad extracurricular y ganaron puntos extras. Estos puntos extras corresponden al 40% de su nota actual. Por lo tanto, crea una columna llamada "Puntos_extras" que contenga los puntos extras de cada estudiante, es decir, el 40% de su nota actual.

2. Crea otra columna llamada "Notas_finales" que contenga las notas de cada estudiante sumadas con los puntos extras.

3. Dado que hubo una puntuación extra, algunos estudiantes que no habían sido aprobados antes pueden haber sido aprobados ahora. En función de esto, crea una columna llamada "Aprobado_final" con los siguientes valores:

  * True: si el estudiante está aprobado (la nota final debe ser mayor o igual a 7.0).
  * False: si el estudiante está reprobado (la nota final debe ser menor que 7.0).


4. Realiza una selección y verifica qué estudiantes no habían sido aprobados anteriormente, pero ahora fueron aprobados después de sumar los puntos extras.

## 1 - Para crear la columna "Puntos_extras", podemos utilizar el método apply para aplicar una función a la columna "Nota". Esta función debe multiplicar 0.4 por el valor de la nota de cada estudiante y colocar el resultado en nuestra nueva columna:

In [41]:
datos['Puntos_extras'] = datos['Nota'].apply(lambda x: x*0.4)

## 2 - La columna "Notas_finales" será la suma de las columnas "Nota" y "Puntos_extras":

In [42]:
datos['Notas_finales'] = datos['Nota'] + datos['Puntos_extras']

## 3 - Para crear la columna "Aprobado_final", podemos utilizar el método apply para aplicar una función a la columna "Notas_finales". Esta función debe colocar True si la nota final es mayor o igual a 7.0 y, en caso contrario, debe colocar False:

In [43]:
datos['Aprobado_final'] = datos['Notas_finales'].apply(lambda x: True if x >= 7.0 else False)

## 4 - Esta selección se puede realizar utilizando el método query:

In [44]:
datos.query('Aprobado == False & Aprobado_final == True')

datos.head(98)

Unnamed: 0,Nombre,Edad,Nota,Aprobado,Puntos_extras,Notas_finales,Aprobado_final
0,Alberto,20,7.5,True,3.0,10.5,True
1,Ana,18,0.0,False,0.0,0.0,False
2,Camila,27,2.5,False,1.0,3.5,False
3,David,18,5.0,False,2.0,7.0,True
4,Brian,21,10.0,True,4.0,14.0,True
5,Bruna,23,0.0,False,0.0,0.0,False
6,Daniela,21,7.0,True,2.8,9.8,True
9,Victor,28,0.0,False,0.0,0.0,False
10,Danilo,21,0.0,False,0.0,0.0,False
11,Ignacio,24,4.5,False,1.8,6.3,False


O también se puede hacer de manera más manual:

seleccion = (datos['Aprobado'] == False) & (datos['Aprobado_final'] == True)
datos[seleccion]