<a href="https://colab.research.google.com/github/oscmoral/Programacion-para-analitica-descriptiva-y-predictiva/blob/main/Practica6_Manejo_de_libreria_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Nombre: Oscar Morales Martinez
### Carrera: Maestría en Inteligencia Artificial y Analítica de Datos
### Materia: Programación para analítica descriptiva y predictiva


---


**Practica: Manejo de librería Pandas**

Objetivo: Carga el archivo titanic.csv en la carpeta correspondiente de Google drive para realizar los siguientes ejercicios:

**Ejercicio 1: Análisis de la distribución de supervivencia por combinación de sexo y clase del pasajero.**

* Calcula la proporción de supervivencia para cada combinación de 'Sex' y 'Pclass'.
* Identifica qué combinación tuvo la tasa de supervivencia más alta.
* Identifica qué combinación tuvo la tasa de supervivencia más baja.

**Ejercicio 2: Identificación de familias grandes a bordo.**

* Crea una nueva columna 'FamilySize' sumando las columnas 'SibSp' y 'Parch'.
* Considera como "familia grande" a aquellas donde 'FamilySize' es mayor a 3.
* Calcula el número de pasajeros en familias grandes.
* Calcula la proporción de supervivencia entre los pasajeros que pertenecen a familias grandes.

**Ejercicio 3: Segmentación por grupos de edad.**

* Clasifica a los pasajeros en las siguientes categorías de edad(tip puede resultar mas sencillo realizarlo con una función):  menor de edad (< 18) y mayor de edad (>=18)

**Ejercicio 4: Comparación entre promedios calculados manualmente y con Pandas**

* Utiliza NumPy para calcular el promedio de las columnas 'Age' y 'Fare', ignorando valores nulos.
* Compara estos valores con los promedios obtenidos utilizando los métodos nativos de Pandas.
* Verifica que los resultados sean consistentes.

**Ejercicio 5. Creación de intervalos de clase usando NumPy y análisis con Pandas**

* Divide la columna 'Fare' en 5 intervalos equidistantes utilizando la función numpy.linspace, el estudiante deberá investigar la operación de esta función en python.
* Crea una nueva columna en el DataFrame que asigne a cada pasajero el intervalo correspondiente de su tarifa.
* Calcula el número de pasajeros en cada intervalo utilizando Pandas y la proporción de supervivientes por intervalo.

---

Paso 1: Importamos las librerias pandas y numpy

In [None]:
import pandas as pd
import numpy as np

Paso 2: Obtenemos acceso a Google Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Paso 3: Declaramos la ruta del archivo

In [None]:
path = "/content/drive/MyDrive/ClassFiles/Titanic-Dataset.csv"

Paso 4: Cargamos el archivo

In [None]:
df = pd.read_csv(path)

print("Archivo cargado correctamente.")
print("Filas y columnas:", df.shape)
print("\nColumnas:", df.columns.tolist())
df.head()

Archivo cargado correctamente.
Filas y columnas: (891, 12)

Columnas: ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**Ejercicio 1: Análisis de la distribución de supervivencia por combinación de sexo y clase del pasajero.**

A) Calcula la proporción de supervivencia para cada combinación de 'Sex' y 'Pclass'.

In [None]:
# Proporción de supervivencia por Sex y Pclass (Survived suele ser 0/1, su media = proporción)
survival_by_group = df.groupby(["Sex", "Pclass"])["Survived"].mean()

print("Proporcion de supervivencia por (Sexo, Clase):")
print(survival_by_group)

Proporcion de supervivencia por (Sexo, Clase):
Sex     Pclass
female  1         0.968085
        2         0.921053
        3         0.500000
male    1         0.368852
        2         0.157407
        3         0.135447
Name: Survived, dtype: float64


B) Identifica qué combinación tuvo la tasa de supervivencia más alta.

In [None]:
best_combo = survival_by_group.idxmax()
best_rate = survival_by_group.max()

best_sex, best_pclass = best_combo

print(
    f"\nCombinacion con mayor supervivencia: "
    f"Sexo = {best_sex}, Clase = {best_pclass} | Proporcion = {best_rate:.3f}"
)


Combinacion con mayor supervivencia: Sexo = female, Clase = 1 | Proporcion = 0.968


C) Identifica qué combinación tuvo la tasa de supervivencia más baja.

In [None]:
worst_combo = survival_by_group.idxmin()
worst_rate = survival_by_group.min()

worst_sex, worst_pclass = worst_combo

print(
    f"Combinacion con menor supervivencia: "
    f"Sexo = {worst_sex}, Clase = {worst_pclass} | Proporcion = {worst_rate:.3f}"
)

Combinacion con menor supervivencia: Sexo = male, Clase = 3 | Proporcion = 0.135


**Ejercicio 2: Identificación de familias grandes a bordo.**

A) Crea una nueva columna 'FamilySize' sumando las columnas 'SibSp' y 'Parch'.

In [None]:
df["FamilySize"] = df["SibSp"] + df["Parch"]

B) Considera como "familia grande" a aquellas donde 'FamilySize' es mayor a 3.

In [None]:
large_family_mask = df["FamilySize"] > 3

C) Calcula el número de pasajeros en familias grandes.

In [None]:
large_family_count = int(large_family_mask.sum())

print("Pasajeros en familias grandes (FamilySize > 3):", large_family_count)

Pasajeros en familias grandes (FamilySize > 3): 62


D) Calcula la proporción de supervivencia entre los pasajeros que pertenecen a familias grandes.

In [None]:
if large_family_count > 0:
    large_family_survival_rate = df.loc[large_family_mask, "Survived"].mean()
    print("Proporción de supervivencia en familias grandes:", large_family_survival_rate)
else:
    print("No hay pasajeros en familias grandes para calcular proporción.")

Proporción de supervivencia en familias grandes: 0.16129032258064516


**Ejercicio 3: Segmentación por grupos de edad.**

A) Clasifica a los pasajeros en las siguientes categorías de edad(tip puede resultar mas sencillo realizarlo con una función):  menor de edad (< 18) y mayor de edad (>=18)

In [None]:
def classify_age(age):
    if pd.isna(age):
        return "Sin edad"
    return "Menor de edad" if age < 18 else "Mayor de edad"

df["AgeGroup"] = df["Age"].apply(classify_age)

print("Conteo por grupo de edad:")
print(df["AgeGroup"].value_counts())


Conteo por grupo de edad:
AgeGroup
Mayor de edad    601
Sin edad         177
Menor de edad    113
Name: count, dtype: int64


**Ejercicio 4: Comparación entre promedios calculados manualmente y con Pandas**

A) Utiliza NumPy para calcular el promedio de las columnas 'Age' y 'Fare', ignorando valores nulos.

In [None]:
age_np_mean = np.nanmean(df["Age"].to_numpy())
fare_np_mean = np.nanmean(df["Fare"].to_numpy())

print("Promedios con NumPy (ignorando nulos):")
print("Age:", age_np_mean)
print("Fare:", fare_np_mean)

Promedios con NumPy (ignorando nulos):
Age: 29.69911764705882
Fare: 32.204207968574636


B) Compara estos valores con los promedios obtenidos utilizando los métodos nativos de Pandas.

In [None]:
age_pd_mean = df["Age"].mean(skipna=True)
fare_pd_mean = df["Fare"].mean(skipna=True)

print("Promedios con Pandas (ignorando nulos):")
print("Age:", age_pd_mean)
print("Fare:", fare_pd_mean)

Promedios con Pandas (ignorando nulos):
Age: 29.69911764705882
Fare: 32.204207968574636


C) Verifica que los resultados sean consistentes.

In [None]:
# Verificación de consistencia (tolerancia por decimales)
age_close = np.isclose(age_np_mean, age_pd_mean, rtol=1e-12, atol=1e-12)
fare_close = np.isclose(fare_np_mean, fare_pd_mean, rtol=1e-12, atol=1e-12)

print("¿Resultados consistentes?")
print("Age coincide:", age_close)
print("Fare coincide:", fare_close)

¿Resultados consistentes?
Age coincide: True
Fare coincide: True


**Ejercicio 5. Creación de intervalos de clase usando NumPy y análisis con Pandas**

A) Divide la columna 'Fare' en 5 intervalos equidistantes utilizando la función numpy.linspace, el estudiante deberá investigar la operación de esta función en python.

In [None]:
fare_min = df["Fare"].min(skipna=True)
fare_max = df["Fare"].max(skipna=True)

# 6 bordes => 5 intervalos
bins = np.linspace(fare_min, fare_max, 6)

print("MInimo Fare:", fare_min)
print("MAximo Fare:", fare_max)
print("Bordes (bins) para 5 intervalos:")
print(bins)

MInimo Fare: 0.0
MAximo Fare: 512.3292
Bordes (bins) para 5 intervalos:
[  0.      102.46584 204.93168 307.39752 409.86336 512.3292 ]


B) Crea una nueva columna en el DataFrame que asigne a cada pasajero el intervalo correspondiente de su tarifa.

In [None]:
df["FareBin"] = pd.cut(
    df["Fare"],
    bins=bins,
    include_lowest=True
)

print("Columna 'FareBin' creada.")
df[["Fare", "FareBin"]].head(10)

Columna 'FareBin' creada.


Unnamed: 0,Fare,FareBin
0,7.25,"(-0.001, 102.466]"
1,71.2833,"(-0.001, 102.466]"
2,7.925,"(-0.001, 102.466]"
3,53.1,"(-0.001, 102.466]"
4,8.05,"(-0.001, 102.466]"
5,8.4583,"(-0.001, 102.466]"
6,51.8625,"(-0.001, 102.466]"
7,21.075,"(-0.001, 102.466]"
8,11.1333,"(-0.001, 102.466]"
9,30.0708,"(-0.001, 102.466]"


C) Calcula el número de pasajeros en cada intervalo utilizando Pandas y la proporción de supervivientes por intervalo.

In [None]:
passengers_per_bin = df["FareBin"].value_counts(dropna=False).sort_index()
survival_rate_per_bin = df.groupby("FareBin", dropna=False)["Survived"].mean()

print("Numero de pasajeros por intervalo:")
print(passengers_per_bin)

print("Proporcion de supervivencia por intervalo:")
print(survival_rate_per_bin)

Numero de pasajeros por intervalo:
FareBin
(-0.001, 102.466]     838
(102.466, 204.932]     33
(204.932, 307.398]     17
(307.398, 409.863]      0
(409.863, 512.329]      3
Name: count, dtype: int64
Proporcion de supervivencia por intervalo:
FareBin
(-0.001, 102.466]     0.361575
(102.466, 204.932]    0.757576
(204.932, 307.398]    0.647059
(307.398, 409.863]         NaN
(409.863, 512.329]    1.000000
Name: Survived, dtype: float64


  survival_rate_per_bin = df.groupby("FareBin", dropna=False)["Survived"].mean()
