# 🧩 Actividad práctica: Pandas – Análisis del dataset de personas en Ecuador

### **1️⃣ Leer el dataset**
Carga el archivo `personas_ecuador.csv` utilizando `pd.read_csv()`. 💡 **Tip:** recuerda verificar que el dataset se haya cargado correctamente.

In [7]:
import pandas as pd

In [None]:
!pip install pandas

In [11]:
# Tu código aquí 👇
df= pd.read_csv('bmi_personas.csv', sep='|')
df.head()

Unnamed: 0,id_persona,numero_cedula,nombre,apellido,peso,altura,sexo,edad,ciudad
0,1,991946723,Camila,Ramírez,65.4,1.72,M,32,Guayaquil
1,2,176600841,Ana,Herrera,68.0,1.46,F,27,Cuenca
2,3,1717009159,Camila,Cedeño,94.5,1.66,M,42,Quito
3,4,113406285,José,Ramírez,69.4,1.45,F,32,Cuenca
4,5,1787050581,María,Herrera,83.5,1.7,M,20,Quito


### **2️⃣ Seleccionar filas específicas con `iloc`**
Usando `.iloc`, selecciona las **primeras 5 filas** del dataset.

In [15]:
# Tu código aquí 👇
primeras_5_iloc = df.iloc[0:5]
print(primeras_5_iloc)


   id_persona  numero_cedula  nombre apellido  peso  altura sexo  edad  \
0           1      991946723  Camila  Ramírez  65.4    1.72    M    32   
1           2      176600841     Ana  Herrera  68.0    1.46    F    27   
2           3     1717009159  Camila   Cedeño  94.5    1.66    M    42   
3           4      113406285    José  Ramírez  69.4    1.45    F    32   
4           5     1787050581   María  Herrera  83.5    1.70    M    20   

      ciudad  
0  Guayaquil  
1     Cuenca  
2      Quito  
3     Cuenca  
4      Quito  


### **3️⃣ Seleccionar columnas con `iloc`**
Usando `.iloc`, selecciona únicamente las columnas **nombre, apellido y ciudad**.

In [17]:
# Tu código aquí 👇
columnas_loc = df.loc[:, 'nombre':'apellido']
print(columnas_loc.head(5))

   nombre apellido
0  Camila  Ramírez
1     Ana  Herrera
2  Camila   Cedeño
3    José  Ramírez
4   María  Herrera


### **4️⃣ Seleccionar filas y columnas específicas con `loc`**
Usa `.loc` para mostrar las **filas de las personas de Guayaquil** pero solo con las columnas **nombre, edad y ciudad**.

In [21]:
# Tu código aquí 👇
filtro_loc_guayaquil = df.loc[df['ciudad'] == 'Guayaquil', ['nombre', 'edad', 'ciudad']]
print(filtro_loc_guayaquil.head())
print(f"\nTotal de personas de Guayaquil en el filtro: {len(filtro_loc_guayaquil)}")

    nombre  edad     ciudad
0   Camila    32  Guayaquil
6    Pedro    30  Guayaquil
9    Sofía    32  Guayaquil
10  Carlos    46  Guayaquil
11   Pedro    33  Guayaquil

Total de personas de Guayaquil en el filtro: 4300


### **5️⃣ Crear una nueva columna con altura en centímetros**
La columna `altura` está en metros. Crea una nueva columna llamada `altura_cm` que convierta ese valor a centímetros.

In [25]:
# Tu código aquí 👇
df['altura_cm'] = df['altura'] * 100
print(df[['altura', 'altura_cm']].head())

   altura  altura_cm
0    1.72      172.0
1    1.46      146.0
2    1.66      166.0
3    1.45      145.0
4    1.70      170.0


### **6️⃣ Peso promedio del dataset**
Calcula el **peso promedio** de todas las personas del dataset.

In [27]:
# Tu código aquí 👇
peso_promedio_total = df['peso'].mean()
print(f"El peso promedio de todas las personas en el dataset es: {peso_promedio_total:.2f} kg")

El peso promedio de todas las personas en el dataset es: 71.53 kg


### **7️⃣ Edad promedio**
Calcula la **edad promedio** de las personas del dataset.

In [28]:
# Tu código aquí 👇
edad_promedio_total = df['edad'].mean()
print(f"La edad promedio de todas las personas en el dataset es: {edad_promedio_total:.2f} años")

La edad promedio de todas las personas en el dataset es: 34.02 años


### **8️⃣ Cuántas ciudades hay en el dataset**
Muestra cuántas ciudades diferentes existen en la columna `ciudad`.

In [29]:
# Tu código aquí 👇
numero_ciudades = df['ciudad'].nunique()
print(f"El número total de ciudades diferentes en el dataset es: {numero_ciudades}")

El número total de ciudades diferentes en el dataset es: 3


### **9️⃣ Porcentaje de personas por ciudad**
Calcula qué porcentaje de personas pertenece a **Guayaquil, Quito y Cuenca**.

In [34]:
# Tu código aquí 👇
porcentaje_ciudades = df['ciudad'].value_counts(normalize=True) * 100
print(porcentaje_ciudades.round(2))

ciudad
Guayaquil    43.0
Quito        35.0
Cuenca       22.0
Name: proportion, dtype: float64


### **🔟 Edad mínima y máxima**
Encuentra la **edad mínima y máxima** del dataset.

In [35]:
# Tu código aquí 👇
edad_minima = df['edad'].min()
edad_maxima = df['edad'].max()
print(f"Edad mínima en el dataset: {edad_minima} años")
print(f"Edad máxima en el dataset: {edad_maxima} años")

Edad mínima en el dataset: 18 años
Edad máxima en el dataset: 50 años


### **11️⃣ Hombres con altura mayor al promedio**
Calcula cuántos **hombres** tienen una **altura mayor al promedio general**.

In [38]:
# Tu código aquí 👇
promedio_altura_general = df['altura'].mean()
print(f"Promedio general de altura: {promedio_altura_general:.3f} metros")

condicion_hombres = df['sexo'] == 'M'
condicion_altura_mayor = df['altura'] > promedio_altura_general

hombres_altos = df[condicion_hombres & condicion_altura_mayor]
numero_hombres_altos = len(hombres_altos)

print(f"El número de hombres con altura mayor al promedio general es: {numero_hombres_altos}")


Promedio general de altura: 1.686 metros
El número de hombres con altura mayor al promedio general es: 3947


### **12️⃣ Calcular el BMI (Índice de Masa Corporal)**
Agrega una nueva columna que calcule el BMI.
💡 Fórmula:  
$BMI = \frac{peso}{altura^2}$

In [40]:
# Tu código aquí 👇
df['BMI'] = df['peso'] / (df['altura'] ** 2)
print(df[['peso', 'altura', 'BMI']].head())

   peso  altura        BMI
0  65.4    1.72  22.106544
1  68.0    1.46  31.900919
2  94.5    1.66  34.293802
3  69.4    1.45  33.008323
4  83.5    1.70  28.892734


### **13️⃣ Crear columna booleana de sobrepeso**
Crea una columna llamada `tiene_sobrepeso` que sea **True** si el BMI es mayor o igual a 25, y **False** si no lo es.

In [42]:
# Tu código aquí 👇
df['tiene_sobrepeso'] = df['BMI'] >= 25
print(df[['BMI', 'tiene_sobrepeso']].head())


         BMI  tiene_sobrepeso
0  22.106544            False
1  31.900919             True
2  34.293802             True
3  33.008323             True
4  28.892734             True


### **14️⃣ Porcentaje de personas con sobrepeso en Guayaquil**
De las personas que tienen sobrepeso (`tiene_sobrepeso == True`), calcula **qué porcentaje vive en Guayaquil**.

In [43]:
# Tu código aquí 👇
personas_sobrepeso = df[df['tiene_sobrepeso'] == True]

sobrepeso_en_guayaquil = personas_sobrepeso[personas_sobrepeso['ciudad'] == 'Guayaquil'].shape[0]

total_personas_sobrepeso = personas_sobrepeso.shape[0]

porcentaje_sobrepeso_guayaquil = (sobrepeso_en_guayaquil / total_personas_sobrepeso) * 100

print(f"Total de personas con sobrepeso (Universo): {total_personas_sobrepeso}")
print(f"Personas con sobrepeso que viven en Guayaquil: {sobrepeso_en_guayaquil}")
print(f"\nEl porcentaje de personas con sobrepeso que vive en Guayaquil es: {porcentaje_sobrepeso_guayaquil:.2f}%")

Total de personas con sobrepeso (Universo): 5011
Personas con sobrepeso que viven en Guayaquil: 2152

El porcentaje de personas con sobrepeso que vive en Guayaquil es: 42.95%


### **15️⃣ Diferencia entre la altura promedio de hombres y mujeres**
Calcula la diferencia en **altura promedio** entre hombres y mujeres.

In [44]:
# Tu código aquí 👇
altura_promedio_por_sexo = df.groupby('sexo')['altura'].mean()
altura_hombres = altura_promedio_por_sexo.loc['M']
altura_mujeres = altura_promedio_por_sexo.loc['F']
diferencia_altura = altura_hombres - altura_mujeres

print("Altura promedio por sexo:")
print(altura_promedio_por_sexo.round(3))
print(f"\nDiferencia de altura promedio (Hombres - Mujeres): {diferencia_altura:.3f} metros")


Altura promedio por sexo:
sexo
F    1.621
M    1.752
Name: altura, dtype: float64

Diferencia de altura promedio (Hombres - Mujeres): 0.131 metros


### **16️⃣ Promedio de edad de las personas con sobrepeso**
Calcula el **promedio de edad** solo de las personas con sobrepeso.

In [45]:
# Tu código aquí 👇
df_sobrepeso = df[df['tiene_sobrepeso'] == True]
promedio_edad_sobrepeso = df_sobrepeso['edad'].mean()
print(f"El promedio de edad de las personas con sobrepeso es: {promedio_edad_sobrepeso:.2f} años")

El promedio de edad de las personas con sobrepeso es: 33.85 años
