# **Obtención y preparación de datos**

# OD27. Proyecto Final

Normalmente, los proyectos de ciencia de datos, comienzan con estadísticas descriptivas para tener una idea de las propiedades del conjunto de datos que se está trabajando. Afortunadamente, es fácil obtener estas estadísticas con las estructuras de datos de **Pandas**.

## <font color='blue'>**Estadística Descriptiva con la Base de Datos Iris**</font>

En este proyecto, deberán implemnetar el cálculo de varias estadísticas descriptivas para el clásico <a href="https://en.wikipedia.org/wiki/Iris_flower_data_set">conjunto de datos de iris</a>.

El siguiente código, carga los paquetes necesarios y también el conjunto de datos iris.

`load_iris()` carga en un objeto que contiene el conjunto de datos de iris.

In [1]:
import pandas as pd
import numpy as np

from pandas import DataFrame
from sklearn.datasets import load_iris

iris_obj = load_iris()

Obtendremos un objeto del tipo __Bunch__, el cual es un contenedor de datos a los cuales se accede a través de _llaves_, de forma similar que en un diccionario de Python.

In [2]:
type(iris_obj)

In [3]:
iris_obj.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [4]:
print(type(iris_obj['data']), '\n')
iris_obj['data']

<class 'numpy.ndarray'> 



array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

### <font color='green'>Actividad 1</font>

Basado en la estructura del objeto **iris_obj**, convierta este en un dataframe.


In [5]:
from sklearn.datasets import load_iris
import pandas as pd

# Load the iris dataset
iris = load_iris()

# Convert to a pandas DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [6]:
# Tu código aquí ...


# Crear un DataFrame a partir de los datos
df = pd.DataFrame(iris_obj.data, columns=iris_obj.feature_names)

# Agregar la columna de especies (target)
df['species'] = iris_obj.target_names[iris_obj.target]

# Mostrar el DataFrame resultante
print(df)

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                  5.1               3.5                1.4               0.2   
1                  4.9               3.0                1.4               0.2   
2                  4.7               3.2                1.3               0.2   
3                  4.6               3.1                1.5               0.2   
4                  5.0               3.6                1.4               0.2   
..                 ...               ...                ...               ...   
145                6.7               3.0                5.2               2.3   
146                6.3               2.5                5.0               1.9   
147                6.5               3.0                5.2               2.0   
148                6.2               3.4                5.4               2.3   
149                5.9               3.0                5.1               1.8   

       species  
0       se

<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

1. Reemplace los valores de la columna "species" por los siguientes valores:
  * "setosa" = 0
  * "versicolor" = 1
  * "virginica" = 2

2. Agrupe las muestras por especies
3. Sin usar el método `describe` calcule los estadísticos básicos de la muestra:
  * cantidad de elementos no nulos
  * media
  * varianza
  * Desviación estándar
  * Percentiles y cuartiles
  * Rango inter-cuartílico
  * Valores máximos y mínimos
  * Rango (diferencia entre el máximo y el mínimo)
4. Repita algunos de los análisis anteriores, pero muestre sus resultados por columnas y especies.
5. Compare sus resultados usando el metodo `describe` por columnas y por especies
6. Generar una tabla multi-indice por "especies" y "ancho del pétalo" y que de cuenta de la suma de los valores de cada clase



In [7]:
# Tu código aquí ...


# Reemplazar los valores de la columna "species" por números
species_mapping = {"setosa": 0, "versicolor": 1, "virginica": 2}
df['species'] = df['species'].map(species_mapping)

# 1. Agrupar por especies
grouped = df.groupby('species')

# 2. Estadísticos básicos sin usar describe
def estadisticos_basicos(group):
    # Cantidad de elementos no nulos
    count = group.count()

    # Media
    mean = group.mean()

    # Varianza
    var = group.var()

    # Desviación estándar
    std = group.std()

    # Percentiles y cuartiles
    percentiles = group.quantile([0.25, 0.5, 0.75])

    # Rango inter-cuartílico (IQR)
    iqr = percentiles.loc[0.75] - percentiles.loc[0.25]

    # Valores máximos y mínimos
    max = group.max()

    min = group.min()

    # Rango
    rango = group.max() - group.min()

    return pd.DataFrame({
        'count': count,
        'mean': mean,
        'var': var,
        'std': std,
        '25th_percentile': percentiles.loc[0.25],
        '50th_percentile': percentiles.loc[0.5],
        '75th_percentile': percentiles.loc[0.75],
        'IQR': iqr,
        'max': max,
        'min': min,
        'range': rango
    })

# Calcular los estadísticos por grupo (especies)
estadisticos_por_especie = grouped.apply(estadisticos_basicos)
print(estadisticos_por_especie)

# 3. Análisis por columnas y especies (Repetir los análisis anteriores pero por columnas y especies)
# Estadísticos por columnas
estadisticos_por_columna = df.describe()
print("\nEstadísticos por columna:")
print(estadisticos_por_columna)

# 4. Crear una tabla multi-índice por "especies" y "ancho del pétalo"
multi_index_table = df.groupby(['species', 'petal width (cm)']).sum()
print("\nTabla multi-índice (especies y ancho del pétalo):")
print(multi_index_table)

                           count   mean       var       std  25th_percentile  \
species                                                                        
0       sepal length (cm)     50  5.006  0.124249  0.352490            4.800   
        sepal width (cm)      50  3.428  0.143690  0.379064            3.200   
        petal length (cm)     50  1.462  0.030159  0.173664            1.400   
        petal width (cm)      50  0.246  0.011106  0.105386            0.200   
        species               50  0.000  0.000000  0.000000            0.000   
1       sepal length (cm)     50  5.936  0.266433  0.516171            5.600   
        sepal width (cm)      50  2.770  0.098469  0.313798            2.525   
        petal length (cm)     50  4.260  0.220816  0.469911            4.000   
        petal width (cm)      50  1.326  0.039106  0.197753            1.200   
        species               50  1.000  0.000000  0.000000            1.000   
2       sepal length (cm)     50  6.588 

  estadisticos_por_especie = grouped.apply(estadisticos_basicos)


<font color='green'>Fin Actividad 2</font>

## <font color='blue'>**Análisis de Datos con Base de Datos Titanic**</font>

Para este probleme utilizaremos la base de datos "_titanic_". Para cargarla debe usar los siguientes comandos:

```
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5)
```
Considere sólo las siguientes variables: _survived_, _pclass_, _sex_, _age_, _fare_ y _embarked_.


### <font color='green'>Actividad 3</font>

1. Reemplace los valores faltantes para la columna edad por el valor promedio de la muestra.
2. Elimine cualquier otra fila en la que falten datos

In [8]:
# Tu código aquí ...
#DATASET TITANIC

import seaborn as sns

# Load the Titanic dataset
titanic = sns.load_dataset('titanic')
titanic.head(5)


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [9]:
import seaborn as sns

# Cargar el conjunto de datos Titanic
titanic = sns.load_dataset("titanic")

# Seleccionar solo las columnas indicadas
titanic = titanic[['survived', 'pclass', 'sex', 'age', 'fare', 'embarked']]

# Reemplazar valores faltantes en 'age' con el promedio de la columna
titanic['age'] = titanic['age'].fillna(titanic['age'].mean())

# Eliminar filas con valores faltantes en cualquier otra columna
titanic = titanic.dropna()

# Mostrar las primeras filas del DataFrame resultante
print(titanic.head())

   survived  pclass     sex   age     fare embarked
0         0       3    male  22.0   7.2500        S
1         1       1  female  38.0  71.2833        C
2         1       3  female  26.0   7.9250        S
3         1       1  female  35.0  53.1000        S
4         0       3    male  35.0   8.0500        S


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

1. Entregar la información correspondiente a la la tasa de supervivencia promedio agrupada por sexo y clase del pasajero.
2. Genere una tabla que muestre la cantidad de personas agrupadas por sexo y clase.
3. Muestre la misma información del punto 1, pero la cantidad de sobrevivientes.



In [10]:
# Tu código aquí ...


import seaborn as sns

# Cargar el conjunto de datos Titanic
titanic = sns.load_dataset("titanic")

# Seleccionar solo las columnas indicadas
titanic = titanic[['survived', 'pclass', 'sex', 'age', 'fare', 'embarked']]

# Reemplazar valores faltantes en 'age' con el promedio de la columna
titanic['age'] = titanic['age'].fillna(titanic['age'].mean())

# Eliminar filas con valores faltantes en cualquier otra columna
titanic = titanic.dropna()

# Actividad 4.1: Tasa de supervivencia promedio agrupada por sexo y clase
survival_rate = titanic.groupby(['sex', 'pclass'])['survived'].mean()

# Actividad 4.2: Tabla con la cantidad de personas agrupadas por sexo y clase
passenger_count = titanic.groupby(['sex', 'pclass']).size()

# Actividad 4.3: Tabla con la cantidad de sobrevivientes agrupados por sexo y clase
survivor_count = titanic[titanic['survived'] == 1].groupby(['sex', 'pclass']).size()

# Mostrar resultados
print("Tasa de supervivencia promedio agrupada por sexo y clase:")
print(survival_rate)

print("\nCantidad de personas agrupadas por sexo y clase:")
print(passenger_count)

print("\nCantidad de sobrevivientes agrupados por sexo y clase:")
print(survivor_count)

Tasa de supervivencia promedio agrupada por sexo y clase:
sex     pclass
female  1         0.967391
        2         0.921053
        3         0.500000
male    1         0.368852
        2         0.157407
        3         0.135447
Name: survived, dtype: float64

Cantidad de personas agrupadas por sexo y clase:
sex     pclass
female  1          92
        2          76
        3         144
male    1         122
        2         108
        3         347
dtype: int64

Cantidad de sobrevivientes agrupados por sexo y clase:
sex     pclass
female  1         89
        2         70
        3         72
male    1         45
        2         17
        3         47
dtype: int64


Hasta ahora hemos examinado las tasas de supervivencia según el sexo y la clase de pasajeros. Otro factor que podría haber influido en la supervivencia es la edad. **¿Los niños varones tenían tanta probabilidad de morir como las mujeres en general?** Podemos investigar esta pregunta mediante la indexación múltiple, o pivotando en más de dos variables, agregando otro índice.

Divida la información de la columna "age" en intervalos, creando así una nueva categoría que se puede utilizar para agrupar. Divida el conjunto en intervalos de (0, 12], (12, 18] y (18, 80].

4. Genere la tabla que le ayude a responder la pregunta anterior (considerando los rangos definidos).
5. Para una mejor interpretación de la información anterior, genere una tabla con el número de entradas por cada grupo.






In [11]:
# Tu código aquí ...


# Crear una nueva columna con rangos de edad
age_bins = pd.cut(titanic['age'], bins=[0, 12, 18, 80], labels=["(0, 12]", "(12, 18]", "(18, 80]"])

# Agregar la nueva columna al DataFrame
titanic['age_group'] = age_bins

# Tabla de tasas de supervivencia agrupadas por sexo, clase y grupo de edad
survival_rate_by_group = titanic.groupby(['sex', 'pclass', 'age_group'])['survived'].mean()

# Tabla con el número de entradas por grupo
entries_by_group = titanic.groupby(['sex', 'pclass', 'age_group']).size()

# Mostrar resultados
print("Tasa de supervivencia agrupada por sexo, clase y rango de edad:")
print(survival_rate_by_group)

print("\nNúmero de entradas por grupo (sexo, clase y rango de edad):")
print(entries_by_group)

Tasa de supervivencia agrupada por sexo, clase y rango de edad:
sex     pclass  age_group
female  1       (0, 12]      0.000000
                (12, 18]     1.000000
                (18, 80]     0.975309
        2       (0, 12]      1.000000
                (12, 18]     1.000000
                (18, 80]     0.903226
        3       (0, 12]      0.478261
                (12, 18]     0.550000
                (18, 80]     0.495050
male    1       (0, 12]      1.000000
                (12, 18]     0.500000
                (18, 80]     0.350427
        2       (0, 12]      1.000000
                (12, 18]     0.000000
                (18, 80]     0.086022
        3       (0, 12]      0.360000
                (12, 18]     0.076923
                (18, 80]     0.121622
Name: survived, dtype: float64

Número de entradas por grupo (sexo, clase y rango de edad):
sex     pclass  age_group
female  1       (0, 12]        1
                (12, 18]      10
                (18, 80]      81
        2

  survival_rate_by_group = titanic.groupby(['sex', 'pclass', 'age_group'])['survived'].mean()
  entries_by_group = titanic.groupby(['sex', 'pclass', 'age_group']).size()


Pandas también admite la indexación múltiple en las columnas. Como ejemplo, considere el precio de los boletos de un pasajero. Esta es otra característica continua que se puede discretizar. Divida los precios en 2 cuantiles iguales (baratos y caros). Algunos de los grupos resultantes podrían estar vacíos; para mejorar la legibilidad de la tabla use un guión en las casillas vacías.

6. Genere una tabla que nos permita ver el efecto del precio de los tickets.

In [12]:
# Tu código aquí ...


# Dividir el precio de los boletos en dos cuantiles (baratos y caros)
fare_quantiles = pd.qcut(titanic['fare'], q=2, labels=["Baratos", "Caros"])

# Agregar la nueva columna al DataFrame
titanic['fare_category'] = fare_quantiles

# Generar una tabla con la tasa de supervivencia agrupada por sexo, clase y categoría de precio
survival_rate_by_fare = titanic.pivot_table(
    index=['sex', 'pclass'],
    columns='fare_category',
    values='survived',
    aggfunc='mean'
)

# Rellenar los valores NaN con un guion para mejorar la legibilidad
survival_rate_by_fare = survival_rate_by_fare.fillna('-')

# Mostrar la tabla resultante
print("Tasa de supervivencia por sexo, clase y categoría de precio:")
print(survival_rate_by_fare)

Tasa de supervivencia por sexo, clase y categoría de precio:
fare_category   Baratos     Caros
sex    pclass                    
female 1              -  0.967391
       2       0.896552  0.936170
       3       0.580247  0.396825
male   1            0.0  0.387931
       2       0.111111  0.222222
       3       0.119403  0.189873


  survival_rate_by_fare = titanic.pivot_table(


<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

### Análisis de una Hipótesis

Supongamos que alguien afirma que la ciudad desde la que se embarcó un pasajero tuvo una gran influencia en la tasa de supervivencia del pasajero. Investigue esta afirmación.

1. Verifique las tasas de supervivencia de los pasajeros según el lugar desde donde se embarcaron (indicadas en la columna "embarked").

2. Cree una tabla dinámica para examinar las tasas de supervivencia según el lugar de embarque y el género.

3. ¿Qué le sugieren estas tablas sobre la importancia de dónde se embarcaron las personas para influir en su tasa de supervivencia? Examine el contexto del problema y explique lo que cree que esto realmente significa.

4. Investigue la afirmación más a fondo con al menos dos tablas dinámicas más, explorando otros criterios (por ejemplo, clase, edad, etc.). Explique cuidadosamente sus conclusiones.

In [13]:
# Tu código aquí ...

import seaborn as sns
import pandas as pd

# Cargar el conjunto de datos Titanic
titanic = sns.load_dataset("titanic")

# Seleccionar solo las columnas necesarias y manejar datos faltantes
titanic = titanic[['survived', 'pclass', 'sex', 'age', 'fare', 'embarked']]
titanic['age'] = titanic['age'].fillna(titanic['age'].mean())
titanic = titanic.dropna()

# Tabla 1: Tasas de supervivencia por lugar de embarque
survival_by_embarked = titanic.groupby('embarked')['survived'].mean()

# Tabla 2: Tasa de supervivencia por lugar de embarque y género
survival_by_embarked_gender = titanic.pivot_table(
    index='embarked',
    columns='sex',
    values='survived',
    aggfunc='mean'
)

# Tabla 3: Tasa de supervivencia por lugar de embarque y clase
survival_by_embarked_class = titanic.pivot_table(
    index='embarked',
    columns='pclass',
    values='survived',
    aggfunc='mean'
)

# Tabla 4: Tasa de supervivencia por lugar de embarque y rangos de edad
age_bins = pd.cut(titanic['age'], bins=[0, 12, 18, 80], labels=["(0, 12]", "(12, 18]", "(18, 80]"])
titanic['age_group'] = age_bins

survival_by_embarked_age = titanic.pivot_table(
    index='embarked',
    columns='age_group',
    values='survived',
    aggfunc='mean'
)

# Mostrar las tablas
print("Tabla 1: Tasas de supervivencia por lugar de embarque")
print(survival_by_embarked)

print("\nTabla 2: Tasa de supervivencia por lugar de embarque y género")
print(survival_by_embarked_gender)

print("\nTabla 3: Tasa de supervivencia por lugar de embarque y clase")
print(survival_by_embarked_class)

print("\nTabla 4: Tasa de supervivencia por lugar de embarque y rangos de edad")
print(survival_by_embarked_age)

  survival_by_embarked_age = titanic.pivot_table(


Tabla 1: Tasas de supervivencia por lugar de embarque
embarked
C    0.553571
Q    0.389610
S    0.336957
Name: survived, dtype: float64

Tabla 2: Tasa de supervivencia por lugar de embarque y género
sex         female      male
embarked                    
C         0.876712  0.305263
Q         0.750000  0.073171
S         0.689655  0.174603

Tabla 3: Tasa de supervivencia por lugar de embarque y clase
pclass           1         2         3
embarked                              
C         0.694118  0.529412  0.378788
Q         0.500000  0.666667  0.375000
S         0.582677  0.463415  0.189802

Tabla 4: Tasa de supervivencia por lugar de embarque y rangos de edad
age_group   (0, 12]  (12, 18]  (18, 80]
embarked                               
C          0.818182  0.647059  0.521429
Q          0.000000  0.750000  0.391304
S          0.574074  0.326531  0.314233


Las letras que etiquetan las categorías de la variable 'embarked' corresponden a las ciudades donde la gente se embarcó en el Titanic:

* Cherbourg
* Queenstown
* Southampton

In [14]:
# Tu código aquí ...




# Reemplazar las iniciales en 'embarked' con los nombres reales
titanic['embarked'] = titanic['embarked'].replace({
    'C': 'Cherbourg',
    'Q': 'Queenstown',
    'S': 'Southampton'
})

# Tabla 1: Tasas de supervivencia por lugar de embarque
survival_by_embarked = titanic.groupby('embarked')['survived'].mean()

# Tabla 2: Tasa de supervivencia por lugar de embarque y género
survival_by_embarked_gender = titanic.pivot_table(
    index='embarked',
    columns='sex',
    values='survived',
    aggfunc='mean'
)

# Tabla 3: Tasa de supervivencia por lugar de embarque y clase
survival_by_embarked_class = titanic.pivot_table(
    index='embarked',
    columns='pclass',
    values='survived',
    aggfunc='mean'
)

# Tabla 4: Tasa de supervivencia por lugar de embarque y rangos de edad
age_bins = pd.cut(titanic['age'], bins=[0, 12, 18, 80], labels=["(0, 12]", "(12, 18]", "(18, 80]"])
titanic['age_group'] = age_bins

survival_by_embarked_age = titanic.pivot_table(
    index='embarked',
    columns='age_group',
    values='survived',
    aggfunc='mean'
)

# Mostrar las tablas con nombres reales
print("Tabla 1: Tasas de supervivencia por lugar de embarque")
print(survival_by_embarked)

print("\nTabla 2: Tasa de supervivencia por lugar de embarque y género")
print(survival_by_embarked_gender)

print("\nTabla 3: Tasa de supervivencia por lugar de embarque y clase")
print(survival_by_embarked_class)

print("\nTabla 4: Tasa de supervivencia por lugar de embarque y rangos de edad")
print(survival_by_embarked_age)


Tabla 1: Tasas de supervivencia por lugar de embarque
embarked
Cherbourg      0.553571
Queenstown     0.389610
Southampton    0.336957
Name: survived, dtype: float64

Tabla 2: Tasa de supervivencia por lugar de embarque y género
sex            female      male
embarked                       
Cherbourg    0.876712  0.305263
Queenstown   0.750000  0.073171
Southampton  0.689655  0.174603

Tabla 3: Tasa de supervivencia por lugar de embarque y clase
pclass              1         2         3
embarked                                 
Cherbourg    0.694118  0.529412  0.378788
Queenstown   0.500000  0.666667  0.375000
Southampton  0.582677  0.463415  0.189802

Tabla 4: Tasa de supervivencia por lugar de embarque y rangos de edad
age_group     (0, 12]  (12, 18]  (18, 80]
embarked                                 
Cherbourg    0.818182  0.647059  0.521429
Queenstown   0.000000  0.750000  0.391304
Southampton  0.574074  0.326531  0.314233


  survival_by_embarked_age = titanic.pivot_table(


<font color='green'>Fin Actividad 5</font>