# 🧩 Actividad práctica: Pandas – Análisis del dataset de personas en Ecuador

### **1️⃣ Leer el dataset**
Carga el archivo `personas_ecuador.csv` utilizando `pd.read_csv()`. 💡 **Tip:** recuerda verificar que el dataset se haya cargado correctamente.

In [180]:
import pandas as pd

personas_ecuador = pd.read_csv('../data/bmi_personas.csv', sep='|')
personas_ecuador.head()

Unnamed: 0,id_persona,numero_cedula,nombre,apellido,peso,altura,sexo,edad,ciudad
0,1,991946723,Camila,Ramírez,65.4,1.72,M,32,Guayaquil
1,2,176600841,Ana,Herrera,68.0,1.46,F,27,Cuenca
2,3,1717009159,Camila,Cedeño,94.5,1.66,M,42,Quito
3,4,113406285,José,Ramírez,69.4,1.45,F,32,Cuenca
4,5,1787050581,María,Herrera,83.5,1.7,M,20,Quito


### **2️⃣ Seleccionar filas específicas con `iloc`**
Usando `.iloc`, selecciona las **primeras 5 filas** del dataset.

In [181]:
personas_ecuador.iloc[0:5]

Unnamed: 0,id_persona,numero_cedula,nombre,apellido,peso,altura,sexo,edad,ciudad
0,1,991946723,Camila,Ramírez,65.4,1.72,M,32,Guayaquil
1,2,176600841,Ana,Herrera,68.0,1.46,F,27,Cuenca
2,3,1717009159,Camila,Cedeño,94.5,1.66,M,42,Quito
3,4,113406285,José,Ramírez,69.4,1.45,F,32,Cuenca
4,5,1787050581,María,Herrera,83.5,1.7,M,20,Quito


### **3️⃣ Seleccionar columnas con `iloc`**
Usando `.iloc`, selecciona únicamente las columnas **nombre, apellido y ciudad**.

In [182]:
filtro_iloc = personas_ecuador.iloc[:, [2, 3, 8]]
filtro_iloc.head()

Unnamed: 0,nombre,apellido,ciudad
0,Camila,Ramírez,Guayaquil
1,Ana,Herrera,Cuenca
2,Camila,Cedeño,Quito
3,José,Ramírez,Cuenca
4,María,Herrera,Quito


### **4️⃣ Seleccionar filas y columnas específicas con `loc`**
Usa `.loc` para mostrar las **filas de las personas de Guayaquil** pero solo con las columnas **nombre, edad y ciudad**.

In [183]:
filtro_loc = personas_ecuador.loc[personas_ecuador['ciudad'] == 'Guayaquil', ['nombre', 'edad', 'ciudad']]
filtro_loc.head()

Unnamed: 0,nombre,edad,ciudad
0,Camila,32,Guayaquil
6,Pedro,30,Guayaquil
9,Sofía,32,Guayaquil
10,Carlos,46,Guayaquil
11,Pedro,33,Guayaquil


### **5️⃣ Crear una nueva columna con altura en centímetros**
La columna `altura` está en metros. Crea una nueva columna llamada `altura_cm` que convierta ese valor a centímetros.

In [184]:
personas_ecuador['altura_cm'] = personas_ecuador['altura'] * 100
personas_ecuador.head()

Unnamed: 0,id_persona,numero_cedula,nombre,apellido,peso,altura,sexo,edad,ciudad,altura_cm
0,1,991946723,Camila,Ramírez,65.4,1.72,M,32,Guayaquil,172.0
1,2,176600841,Ana,Herrera,68.0,1.46,F,27,Cuenca,146.0
2,3,1717009159,Camila,Cedeño,94.5,1.66,M,42,Quito,166.0
3,4,113406285,José,Ramírez,69.4,1.45,F,32,Cuenca,145.0
4,5,1787050581,María,Herrera,83.5,1.7,M,20,Quito,170.0


### **6️⃣ Peso promedio del dataset**
Calcula el **peso promedio** de todas las personas del dataset.

In [185]:
peso_promedio = personas_ecuador['peso'].mean()
print(f"Peso promedio: {peso_promedio:.2f}")

Peso promedio: 71.53


### **7️⃣ Edad promedio**
Calcula la **edad promedio** de las personas del dataset.

In [186]:
edad_promedio = personas_ecuador['edad'].mean()
print(f"Edad promedio: {edad_promedio:.2f}")

Edad promedio: 34.02


### **8️⃣ Cuántas ciudades hay en el dataset**
Muestra cuántas ciudades diferentes existen en la columna `ciudad`.

In [187]:
ciudades_diferentes = personas_ecuador['ciudad'].nunique()
print(f"Cantidad de ciudades diferentes: {ciudades_diferentes}")

Cantidad de ciudades diferentes: 3


### **9️⃣ Porcentaje de personas por ciudad**
Calcula qué porcentaje de personas pertenece a **Guayaquil, Quito y Cuenca**.

In [188]:
# normalize=True --> convierte los conteos en proporciones (dividiendo el conteo total por cada ciudad)
# Multiplicar por 100 para obtener porcentajes
porcentaje_por_ciudad = personas_ecuador['ciudad'].value_counts(normalize=True) * 100

print(f"Porcentaje de personas por ciudad: {porcentaje_por_ciudad}")

Porcentaje de personas por ciudad: ciudad
Guayaquil    43.0
Quito        35.0
Cuenca       22.0
Name: proportion, dtype: float64


### **🔟 Edad mínima y máxima**
Encuentra la **edad mínima y máxima** del dataset.

In [189]:
edad_minima = personas_ecuador['edad'].min()
edad_maxima = personas_ecuador['edad'].max()

print(f"Edad minima: {edad_minima}")
print(f"Edad máxima: {edad_maxima}")

Edad minima: 18
Edad máxima: 50


### **11️⃣ Hombres con altura mayor al promedio**
Calcula cuántos **hombres** tienen una **altura mayor al promedio general**.

In [190]:
altura_promedio = personas_ecuador['altura'].mean()
hombres_mayor_altura_promedio = personas_ecuador[(personas_ecuador['sexo'] == 'M') & (personas_ecuador['altura'] > altura_promedio)].shape[0] # Obtener la cantidad de filas del df filtrado

print(f"Cantidad de Hombres que tienen una altura mayor al promedio general: {hombres_mayor_altura_promedio}")

Cantidad de Hombres que tienen una altura mayor al promedio general: 3947


### **12️⃣ Calcular el BMI (Índice de Masa Corporal)**
Agrega una nueva columna que calcule el BMI.
💡 Fórmula:  
$BMI = \frac{peso}{altura^2}$

In [191]:
personas_ecuador['bmi'] = personas_ecuador['peso'] / (personas_ecuador['altura'] ** 2)

personas_ecuador.head()

Unnamed: 0,id_persona,numero_cedula,nombre,apellido,peso,altura,sexo,edad,ciudad,altura_cm,bmi
0,1,991946723,Camila,Ramírez,65.4,1.72,M,32,Guayaquil,172.0,22.106544
1,2,176600841,Ana,Herrera,68.0,1.46,F,27,Cuenca,146.0,31.900919
2,3,1717009159,Camila,Cedeño,94.5,1.66,M,42,Quito,166.0,34.293802
3,4,113406285,José,Ramírez,69.4,1.45,F,32,Cuenca,145.0,33.008323
4,5,1787050581,María,Herrera,83.5,1.7,M,20,Quito,170.0,28.892734


### **13️⃣ Crear columna booleana de sobrepeso**
Crea una columna llamada `tiene_sobrepeso` que sea **True** si el BMI es mayor o igual a 25, y **False** si no lo es.

In [192]:
personas_ecuador['tiene_sobrepreso'] = personas_ecuador['bmi'] >= 25

personas_ecuador.head()

Unnamed: 0,id_persona,numero_cedula,nombre,apellido,peso,altura,sexo,edad,ciudad,altura_cm,bmi,tiene_sobrepreso
0,1,991946723,Camila,Ramírez,65.4,1.72,M,32,Guayaquil,172.0,22.106544,False
1,2,176600841,Ana,Herrera,68.0,1.46,F,27,Cuenca,146.0,31.900919,True
2,3,1717009159,Camila,Cedeño,94.5,1.66,M,42,Quito,166.0,34.293802,True
3,4,113406285,José,Ramírez,69.4,1.45,F,32,Cuenca,145.0,33.008323,True
4,5,1787050581,María,Herrera,83.5,1.7,M,20,Quito,170.0,28.892734,True


### **14️⃣ Porcentaje de personas con sobrepeso en Guayaquil**
De las personas que tienen sobrepeso (`tiene_sobrepeso == True`), calcula **qué porcentaje vive en Guayaquil**.

In [193]:
personas_sobrepeso = personas_ecuador[personas_ecuador['tiene_sobrepreso'] == True]

porcentaje_sobrepeso_gye = (personas_sobrepeso['ciudad'] == 'Guayaquil').sum() / personas_sobrepeso.shape[0] * 100

print(f"Porcentaje de personas con sobrepeso en Guayaquil: {porcentaje_sobrepeso_gye:.2f}%")

Porcentaje de personas con sobrepeso en Guayaquil: 42.95%


### **15️⃣ Diferencia entre la altura promedio de hombres y mujeres**
Calcula la diferencia en **altura promedio** entre hombres y mujeres.

In [194]:
altura_promedio_hombres = personas_ecuador[personas_ecuador['sexo'] == 'M']['altura'].mean()
altura_promedio_mujeres = personas_ecuador[personas_ecuador['sexo'] == 'F']['altura'].mean()

diferencia_altura = altura_promedio_hombres - altura_promedio_mujeres

print(f"Altura promedio hombres: {altura_promedio_hombres:.2f}")
print(f"Altura promedio mujeres: {altura_promedio_mujeres:.2f}")
print(f"Diferencia: {diferencia_altura:.2f}")

Altura promedio hombres: 1.75
Altura promedio mujeres: 1.62
Diferencia: 0.13


### **16️⃣ Promedio de edad de las personas con sobrepeso**
Calcula el **promedio de edad** solo de las personas con sobrepeso.

In [195]:
promedio_edad_sobrepreso = personas_ecuador[personas_ecuador['tiene_sobrepreso'] == True]['edad'].mean()

print(f"Promedio de edad de las personas con sobrepeso: {promedio_edad_sobrepreso:.2f}")

Promedio de edad de las personas con sobrepeso: 33.85
