# Desafío 4 - Tipos y estructuras de Datos (Parte II)

## Desarrollo

1. - Importamos la biblioteca **Pandas** para el manejo y análisis de datos. 

   - Leemos el archivo entregado mediante el comando **pd.read_csv**, luego éste lo carga en un DataFrame llamado *df*.
   - Usamos el comando *df* para mostrar el DataFrame y confirmar que el archivo esta siendo leído correctamente. 


In [None]:
# 1.- Importar la biblioteca 

import pandas as pd

# - Leer el archivo CSV en un DataFrame

df = pd.read_csv(r"C:\Users\Marcel Jara\OneDrive - Entel\Escritorio/resumen_resultados_astronautas.csv")
df

Unnamed: 0,nombre,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica
0,Alana Morillo,32,75,180,93,88,78,89,6,Si
1,Fátima Tafalla,27,68,167,82,95,81,87,4,Si
2,Sofía Puig,29,80,185,85,80,90,91,3,Si
3,Valentina Tasis,30,65,175,90,91,85,92,2,No
4,Regina Cicerón,31,76,183,89,87,83,90,7,Si
5,Amaya de la Cruz,26,64,170,80,94,79,86,4,No
6,María Juderías,28,78,182,88,85,87,92,5,Si
7,Perla Alcocer,30,71,168,86,92,82,88,3,No
8,Consuela Arboleda,33,77,188,94,83,89,93,8,Si
9,María José Franco,29,70,175,87,90,80,89,2,No


2. Creamos la columna "IMC" usando la fórmula entregada (IMC = m / h*h), donde "m = 'peso'" y "h = 'altura'". 
- Como la estatura de los astronautas esta entregada en centímetros debemos pasarla a metros para obtener un resultado correcto. Para no tener dos columnas con el mismo dato pero con diferentes tipos de medidas se crea la columna **altura_metros** y se elimina la columna **altura** con el método **.drop(columns=['altura'])**.
- Se usa el método *round(2)* para recortar a dos los decimales en el resultado del IMC. Con *df* confirmamos la correcta creación de la columna visualizando el DataFrame.

In [None]:
# 2.- Crear la columna "IMC" 

# Convertir la altura de centímetros a metros

df['altura_metros'] = df['altura'] / 100

# Eliminar la coluna 'altura' que esta en centímetros

df = df.drop(columns=['altura'])

# Crear columna IMC 

df['IMC'] = (df['peso'] / (df['altura_metros'] ** 2)).round(2)

# Mostrar los datos 

df

Unnamed: 0,nombre,edad,peso,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica,altura_metros,IMC
0,Alana Morillo,32,75,93,88,78,89,6,Si,1.8,23.15
1,Fátima Tafalla,27,68,82,95,81,87,4,Si,1.67,24.38
2,Sofía Puig,29,80,85,80,90,91,3,Si,1.85,23.37
3,Valentina Tasis,30,65,90,91,85,92,2,No,1.75,21.22
4,Regina Cicerón,31,76,89,87,83,90,7,Si,1.83,22.69
5,Amaya de la Cruz,26,64,80,94,79,86,4,No,1.7,22.15
6,María Juderías,28,78,88,85,87,92,5,Si,1.82,23.55
7,Perla Alcocer,30,71,86,92,82,88,3,No,1.68,25.16
8,Consuela Arboleda,33,77,94,83,89,93,8,Si,1.88,21.79
9,María José Franco,29,70,87,90,80,89,2,No,1.75,22.86


3. - Creamos la columna **promedio_evaluaciones** que contiene el promedio de las cuatro evaluaciones para cada astronauta. La función *mean(axis=1)* se usa para calcular el promedio de las evaluaciones en cada fila del DataFrame. Si fuera *axis=0* se calcula el promedio de las columnas.
   - Usamos una indexación booleana con el método **query()** para hacerlo de forma más sencilla. La otra opción sería: *"df_filtrado = df[(df['IMC'] >= 18.5) & (df['IMC'] <= 24.9)]"*
   - Con *df_filtrado* mostramos el DataFrame solo con el astronautas que cumplen con esta condición. 

In [None]:
# 3.- Crear la columna promedio_evaluaciones con el promedio de las 4 evaluaciones.

df['promedio_evaluaciones'] = df[['evaluacion_fisica', 'evaluacion_psicologica', 'evaluacion_adaptativa', 'evaluacion_medica']].mean(axis=1)

# df # podemos usar este comando para confirmar la correcta creación de la columna

# - Filtrar por IMC adecuado

df_filtrado = df.query('18.5 <= IMC <= 24.9')

df_filtrado

Unnamed: 0,nombre,edad,peso,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica,altura_metros,IMC,promedio_evaluaciones
0,Alana Morillo,32,75,93,88,78,89,6,Si,1.8,23.15,87.0
1,Fátima Tafalla,27,68,82,95,81,87,4,Si,1.67,24.38,86.25
2,Sofía Puig,29,80,85,80,90,91,3,Si,1.85,23.37,86.5
3,Valentina Tasis,30,65,90,91,85,92,2,No,1.75,21.22,89.5
4,Regina Cicerón,31,76,89,87,83,90,7,Si,1.83,22.69,87.25
5,Amaya de la Cruz,26,64,80,94,79,86,4,No,1.7,22.15,84.75
6,María Juderías,28,78,88,85,87,92,5,Si,1.82,23.55,88.0
8,Consuela Arboleda,33,77,94,83,89,93,8,Si,1.88,21.79,89.75
9,María José Franco,29,70,87,90,80,89,2,No,1.75,22.86,86.5
10,Emanuel Gálvez,27,73,84,89,84,87,3,Si,1.81,22.28,86.0


4. Aplicamos un segundo filtro para incluir solo los astronautas que tienen un promedio de evaluaciones mayor o igual a 87. Este filtro se aplica al DataFrame **df_filtrado**.

In [None]:
# 4.- Filtrar por promedio de evaluaciones

df_filtrado = df_filtrado[df_filtrado['promedio_evaluaciones'] >= 87]

# Mostrar el Data Frame filtrado

df_filtrado

Unnamed: 0,nombre,edad,peso,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica,altura_metros,IMC,promedio_evaluaciones
0,Alana Morillo,32,75,93,88,78,89,6,Si,1.8,23.15,87.0
3,Valentina Tasis,30,65,90,91,85,92,2,No,1.75,21.22,89.5
4,Regina Cicerón,31,76,89,87,83,90,7,Si,1.83,22.69,87.25
6,María Juderías,28,78,88,85,87,92,5,Si,1.82,23.55,88.0
8,Consuela Arboleda,33,77,94,83,89,93,8,Si,1.88,21.79,89.75
12,Patricio Encarnación,30,81,93,86,88,91,4,Si,1.9,22.44,89.5
13,Cristóbal Miralles,31,72,88,91,86,92,6,No,1.74,23.78,89.25
16,Nicolás Cambeiro,29,68,88,90,81,90,2,No,1.75,22.2,87.25
18,Samuel Gálvez,22,74,91,91,91,86,3,Si,1.83,22.1,89.75
23,Christopher Berganza,23,70,92,93,92,85,1,Si,1.73,23.39,90.5


5. Reiniciamos el índice del DataFrame resultante para que sea secuencial después de los filtros aplicados. Para ello usamos **.reset_index()**.

- Aplicamos **drop=True** para evitar que el índice antiguo se mantenga como una columna.
- Agregamos **inplace=True** para modificar el DataFrame existente en lugar de crear uno nuevo.

In [None]:
# 5.- Reiniciar el índice

df_filtrado.reset_index(drop=True, inplace=True)

df_filtrado


Unnamed: 0,nombre,edad,peso,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica,altura_metros,IMC,promedio_evaluaciones
0,Alana Morillo,32,75,93,88,78,89,6,Si,1.8,23.15,87.0
1,Valentina Tasis,30,65,90,91,85,92,2,Si,1.75,21.22,89.5
2,Regina Cicerón,31,76,89,87,83,90,7,Si,1.83,22.69,87.25
3,María Juderías,28,78,88,85,87,92,5,Si,1.82,23.55,88.0
4,Consuela Arboleda,33,77,94,83,89,93,8,Si,1.88,21.79,89.75
5,Patricio Encarnación,30,81,93,86,88,91,4,Si,1.9,22.44,89.5
6,Cristóbal Miralles,31,72,88,91,86,92,6,Si,1.74,23.78,89.25
7,Nicolás Cambeiro,29,68,88,90,81,90,2,Si,1.75,22.2,87.25
8,Samuel Gálvez,22,74,91,91,91,86,3,Si,1.83,22.1,89.75
9,Christopher Berganza,23,70,92,93,92,85,1,Si,1.73,23.39,90.5


6. Modificamos la columna llamada *'califica'* asignándole el valor *'Si'* a todos los astronautas que cumplen con los filtros.

In [None]:
# 6.- Modificar la columna 'califica'

df_filtrado['califica'] = 'Si'

df_filtrado


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['califica'] = 'Si'


Unnamed: 0,nombre,edad,peso,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica,altura_metros,IMC,promedio_evaluaciones
0,Alana Morillo,32,75,93,88,78,89,6,Si,1.8,23.15,87.0
1,Valentina Tasis,30,65,90,91,85,92,2,Si,1.75,21.22,89.5
2,Regina Cicerón,31,76,89,87,83,90,7,Si,1.83,22.69,87.25
3,María Juderías,28,78,88,85,87,92,5,Si,1.82,23.55,88.0
4,Consuela Arboleda,33,77,94,83,89,93,8,Si,1.88,21.79,89.75
5,Patricio Encarnación,30,81,93,86,88,91,4,Si,1.9,22.44,89.5
6,Cristóbal Miralles,31,72,88,91,86,92,6,Si,1.74,23.78,89.25
7,Nicolás Cambeiro,29,68,88,90,81,90,2,Si,1.75,22.2,87.25
8,Samuel Gálvez,22,74,91,91,91,86,3,Si,1.83,22.1,89.75
9,Christopher Berganza,23,70,92,93,92,85,1,Si,1.73,23.39,90.5


7. Finalmente exportamos el DataFrame filtrado a un nuevo archivo CSV llamado **astronautas_calificados_1.csv**. 

- **index=False** asegura que el índice del DataFrame no se incluya en el archivo CSV.

In [None]:
# 7.- # Exportar el DataFrame a un archivo CSV

df_filtrado.to_csv('astronautas_calificados_1.csv', index=False)