# Pandas y Valores Faltandes




## Extra: Tripulación del Titanic

Si llegaste hasta acá y todavía tenés tiempo y ganas, te proponemos que explores el dataset de Supervivientes del Titanic. Queremos saber si los sobrevivientes del RMS Titanic murieron *al azar* o si los sobrevivientes tenían alguna característica distinta de las víctimas de la tragedia. Tenemos disponibles algunos datos sobre pasajeros/as del Titanic, que pueden descargar [acá](https://www.kaggle.com/c/titanic/) (solo el archivo `train.csv`). La propuesta es analizarlos para intentar encontrar algunas características que separen a los/as pasajeros/as que sobrevivieron de los/as que no.

### Análisis Exploratorio de Datos

1. Cargar los datos desde el archivo csv.
1. Investigar qué forma tienen los datos utilizando las funciones exploratorias que aprendimos. ¿Qué información tenemos en los datos?¿Qué representa cada columna?¿Cuántos pasajeros/as están incluidos/as en este Dataset?
1. ¿Faltan datos? ¿Se te ocurre por qué? ¿Qué harías con ellos?
1. ¿Te parece que todas las columnas son informativas o borrarías alguna?

**Para pensar**: ¿te parece que la supervivencia (o no) fue un proceso completamente *al azar* o existe algún mecanismo generador de estos datos?¿Qué nos enseñó la famosa película de David Cameron?

https://medium.com/@diolmedo/participando-en-la-competencia-titanic-machine-learning-from-disaster-en-la-plataforma-kaggle-47f01c838af2

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
titanic = pd.read_csv('Titanic.csv',delimiter = ',',encoding = "utf-8")
titanic.head(30)

2. ¿Cuántas columnas (features) tiene?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)?.

In [None]:

print(titanic.shape)
print(titanic.columns)
# wine_reviews.drop(columns=['Unnamed: 0'], inplace = True)
# titanic.drop(columns=['Parch'], inplace = False)

3. ¿Cuántos valores faltantes hay en cada columna?

In [None]:
titanic.info()

In [None]:
print(titanic.isna().sum())

In [None]:
nulos = titanic.shape[0]-titanic.count()
nulos

4. ¿Cuál o cuáles son las columnas con más valores faltantes?

In [None]:
registro_5 = titanic.iloc[5]
print(registro_5)


In [None]:
titanic.isna().sum(axis = 0).idxmax()

In [None]:
titanic.isna().sum(axis = 1).idxmax()

In [None]:
titanic.iloc[titanic.isna().sum(axis = 1).idxmax()]

5. Hacerse alguna pregunta acerca del dataset e intentar responderla. Por ejemplo, ¿cuál es la persona de más edad?

In [None]:
titanic.Age.idxmax()

In [None]:
titanic["Age"].idxmax()

In [None]:
titanic.loc[titanic.Age.idxmax()]

In [None]:
titanic.loc[titanic.Age.idxmax()]['Name'] 

In [None]:
titanic.loc[titanic.Age.idxmax(),['Name',"Embarked"] ]

In [None]:
titanic.loc[titanic.Age.idxmin()]

In [None]:
titanic.loc[titanic.Age.idxmin()]['Name']

## Trabajando con datos faltantes

Antes de realizar cada una de las siguientes consignas, recordá copiar el dataset en una nueva variable, así mantemos el dataset original sin modificar.

1. Descartar aquellas filas que tengan algún valor faltante. ¿Cuántas instancias quedan en el dataset?

In [None]:
titanic_copia = titanic.copy()

In [None]:
titanic.shape

In [None]:
titanic_copia.dropna(inplace = True)
titanic_copia.shape

2. Descartar aquellas columnas que tengan algún valor faltante. ¿Cuántos y cuáles atributos quedaron?

In [None]:
titanic_copia = titanic.copy()

In [None]:
titanic_copia.shape

In [None]:
titanic_copia.dropna(axis = 1, inplace = True)
titanic_copia.shape

In [None]:
print(titanic_copia.columns)
print(titanic.columns)

In [None]:
titanic_copia.head()

Pueden observar que descartar sin ningún criterio puede hacer que perdamos muchos datos.

Tratemos de mejorar un poco los criterios con los que descartamos.

3. Descartar aquellas filas que tengan más de tres valores faltantes. ¿Cuántas instancias quedaron?

In [None]:
titanic_copia = titanic.copy()

In [None]:
titanic_copia.shape

In [None]:
titanic_copia.dropna(inplace = True, thresh=1)
titanic_copia.shape

4. Descartar aquellas columnas que tengan más del 50% de valores faltantes. ¿Cuántos y cuáles atributos quedaron? Luego, descartar las instancias que tengan algún valor faltante.

In [None]:
titanic_copia = titanic.copy()

In [None]:
titanic_copia.dropna(axis = 1, inplace = True, thresh=titanic_copia.shape[0]*0.5)
titanic_copia.shape

In [None]:
titanic_copia.dropna(inplace = True)
titanic_copia.shape

In [None]:
titanic_copia.head()

## Imputación de Valores Faltantes

1. Calcular el valor medio, moda, mediana y la desviación estándar de la columna `price`.

In [None]:
titanic.describe()

In [None]:
titanic["Age"].describe()


In [None]:
print(titanic.Age.mean())
print(titanic.Age.mode()[0])
print(titanic.Age.median())
print(titanic.Age.std())

2. Imputar los valores faltantes en la columna `Age` usando su valor medio.

In [None]:
titanic_copia = titanic.copy()
titanic_copia.fillna(titanic.Age.median(), inplace = True)

3. ¿Cambió el valor medio de la columna?¿Y su desviación estándar?¿Y los otros estadísticos que calculamos?¿Por qué?

In [None]:
print(titanic_copia["Age"].describe())
print(titanic["Age"].describe())

In [None]:
print(titanic_copia.Age.mean())
print(titanic_copia.Age.mode()[0])
print(titanic_copia.Age.median())
print(titanic_copia.Age.std())

4. Volver a correr las celdas anteriores, pero completando los valores faltantes con la mediana y luego la moda.

In [None]:
titanic_copia2 = titanic.copy()
titanic_copia2.fillna(titanic.Age.mode()[0], inplace = True)

In [87]:
titanic_copia2.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,28.56697,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,13.199572,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,22.0,0.0,0.0,7.9104
50%,446.0,0.0,3.0,24.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,35.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


5. Trabajar con un dataset sin visualizar es muy aburrido y, diríamos, casi frustrante. La próxima clase ya nos meteremos de lleno en visualización. Mientras tanto, intenten hacer un histograma de los puntajes asignados y, luego, de los precios.

In [None]:
plt.hist(titanic_copia.Age, bins= 6)
plt.xlabel('Edades')
plt.grid()
plt.show()

In [None]:
plt.hist(titanic_copia.Survived, bins= 2)#, log = True)
plt.xlabel('Sobrevivientes')
plt.grid()
plt.show()

In [None]:
survived_counts = titanic_copia['Survived'].value_counts()

# Crear gráfico de torta
plt.figure(figsize=(8, 6))
plt.pie(survived_counts, labels=['No Sobrevivió', 'Sobrevivió'], autopct='%1.1f%%', startangle=140)
plt.title('Distribución de Sobrevivientes del Titanic')
plt.axis('equal')  # Para asegurar que el gráfico de torta sea un círculo
plt.show()

Respecto al segundo gráfico, ¿les gusta cómo queda?¿Qué es una escala logarítmica?

In [None]:
print(titanic[['Pclass','Survived']].groupby(['Pclass']).mean().sort_values(by='Survived', ascending=False))

In [None]:
print(titanic[['Age','Survived']].groupby(['Age']).mean().sort_values(by='Survived', ascending=False))

In [None]:
titanic.info()

In [None]:
titanic.fillna(titanic.Age.mean(), inplace = True)

In [85]:
titanic['Rango_Edad'] = pd.cut(titanic['Age'], 5)

In [88]:
titanic["Rango_Edad"]

0      (16.336, 32.252]
1      (32.252, 48.168]
2      (16.336, 32.252]
3      (32.252, 48.168]
4      (32.252, 48.168]
             ...       
886    (16.336, 32.252]
887    (16.336, 32.252]
888    (16.336, 32.252]
889    (16.336, 32.252]
890    (16.336, 32.252]
Name: Rango_Edad, Length: 891, dtype: category
Categories (5, interval[float64, right]): [(0.34, 16.336] < (16.336, 32.252] < (32.252, 48.168] < (48.168, 64.084] < (64.084, 80.0]]

In [89]:
print(titanic[['Rango_Edad','Survived']].groupby(['Rango_Edad']).mean().sort_values(by='Survived', ascending=False))

                  Survived
Rango_Edad                
(0.34, 16.336]    0.550000
(48.168, 64.084]  0.434783
(32.252, 48.168]  0.404255
(16.336, 32.252]  0.344168
(64.084, 80.0]    0.090909


  print(titanic[['Rango_Edad','Survived']].groupby(['Rango_Edad']).mean().sort_values(by='Survived', ascending=False))


In [91]:
print(titanic[['Pclass','Survived']].groupby(['Pclass']).mean().sort_values(by='Survived', ascending=False))

        Survived
Pclass          
1       0.629630
2       0.472826
3       0.242363


In [92]:
print(titanic[['Sex','Survived']].groupby(['Sex']).mean().sort_values(by='Survived', ascending=False))

        Survived
Sex             
female  0.742038
male    0.188908


In [94]:
print(titanic[['Cabin','Survived']].groupby(['Cabin']).mean().sort_values(by='Survived', ascending=False))

         Survived
Cabin            
C62 C64       1.0
C126          1.0
C50           1.0
D7            1.0
C47           1.0
...           ...
C118          0.0
C111          0.0
C110          0.0
B94           0.0
T             0.0

[148 rows x 1 columns]


In [95]:
print(titanic[['Embarked','Survived']].groupby(['Embarked']).mean().sort_values(by='Survived', ascending=False))

           Survived
Embarked           
29.699118  1.000000
C          0.553571
Q          0.389610
S          0.336957


In [96]:
titanic.fillna(titanic.Embarked.mode(), inplace = True)

In [97]:
print(titanic[['SibSp','Survived']].groupby(['SibSp']).mean().sort_values(by='Survived', ascending=False))

       Survived
SibSp          
1      0.535885
2      0.464286
0      0.345395
3      0.250000
4      0.166667
5      0.000000
8      0.000000


In [98]:
print(titanic[['Parch','Survived']].groupby(['Parch']).mean().sort_values(by='Survived', ascending=False))

       Survived
Parch          
3      0.600000
1      0.550847
2      0.500000
0      0.343658
5      0.200000
4      0.000000
6      0.000000


In [99]:
print(titanic[['Parch','Survived']].groupby(['Parch']).count().sort_values(by='Survived', ascending=False))

       Survived
Parch          
0           678
1           118
2            80
3             5
5             5
4             4
6             1


In [100]:
print(titanic[['Sex','Pclass','Survived']].groupby(['Sex','Pclass']).mean().sort_values(by='Survived', ascending=False))

               Survived
Sex    Pclass          
female 1       0.968085
       2       0.921053
       3       0.500000
male   1       0.368852
       2       0.157407
       3       0.135447


In [101]:
print(titanic[['Sex','Rango_Edad','Survived']].groupby(['Sex','Rango_Edad']).mean().sort_values(by='Survived', ascending=False))

                         Survived
Sex    Rango_Edad                
female (48.168, 64.084]  0.916667
       (32.252, 48.168]  0.794118
       (16.336, 32.252]  0.716763
       (0.34, 16.336]    0.673469
male   (0.34, 16.336]    0.431373
       (32.252, 48.168]  0.183333
       (48.168, 64.084]  0.177778
       (16.336, 32.252]  0.160000
       (64.084, 80.0]    0.090909
female (64.084, 80.0]         NaN


  print(titanic[['Sex','Rango_Edad','Survived']].groupby(['Sex','Rango_Edad']).mean().sort_values(by='Survived', ascending=False))


In [103]:
print(titanic[['Pclass','Rango_Edad','Survived']].groupby(['Pclass','Rango_Edad']).mean().sort_values(by='Survived', ascending=False))

                         Survived
Pclass Rango_Edad                
2      (0.34, 16.336]    0.904762
1      (0.34, 16.336]    0.888889
       (32.252, 48.168]  0.681159
       (16.336, 32.252]  0.640449
       (48.168, 64.084]  0.534884
2      (32.252, 48.168]  0.448980
       (16.336, 32.252]  0.421053
3      (0.34, 16.336]    0.400000
2      (48.168, 64.084]  0.352941
3      (16.336, 32.252]  0.244838
1      (64.084, 80.0]    0.166667
3      (48.168, 64.084]  0.111111
       (32.252, 48.168]  0.100000
2      (64.084, 80.0]    0.000000
3      (64.084, 80.0]    0.000000


  print(titanic[['Pclass','Rango_Edad','Survived']].groupby(['Pclass','Rango_Edad']).mean().sort_values(by='Survived', ascending=False))


In [104]:
print(titanic[['Sex','Pclass','Rango_Edad','Survived']].groupby(['Sex','Pclass','Rango_Edad']).mean().sort_values(by='Survived', ascending=False))

                                Survived
Sex    Pclass Rango_Edad                
female 1      (32.252, 48.168]  1.000000
       2      (0.34, 16.336]    1.000000
       3      (48.168, 64.084]  1.000000
male   1      (0.34, 16.336]    1.000000
female 1      (16.336, 32.252]  0.975610
              (48.168, 64.084]  0.941176
       2      (16.336, 32.252]  0.921053
              (32.252, 48.168]  0.909091
       1      (0.34, 16.336]    0.833333
       2      (48.168, 64.084]  0.833333
male   2      (0.34, 16.336]    0.818182
female 3      (0.34, 16.336]    0.545455
              (16.336, 32.252]  0.521277
male   1      (32.252, 48.168]  0.435897
              (16.336, 32.252]  0.354167
       3      (0.34, 16.336]    0.270270
       1      (48.168, 64.084]  0.269231
female 3      (32.252, 48.168]  0.250000
male   1      (64.084, 80.0]    0.166667
       3      (16.336, 32.252]  0.138776
       2      (48.168, 64.084]  0.090909
              (16.336, 32.252]  0.087719
              (3

  print(titanic[['Sex','Pclass','Rango_Edad','Survived']].groupby(['Sex','Pclass','Rango_Edad']).mean().sort_values(by='Survived', ascending=False))


In [105]:
print(titanic[['Sex','Pclass','Rango_Edad','Survived']].groupby(['Sex','Pclass','Rango_Edad']).count().sort_values(by='Survived', ascending=False))

                                Survived
Sex    Pclass Rango_Edad                
male   3      (16.336, 32.252]       245
female 3      (16.336, 32.252]        94
male   2      (16.336, 32.252]        57
       3      (32.252, 48.168]        54
       1      (16.336, 32.252]        48
female 1      (16.336, 32.252]        41
male   1      (32.252, 48.168]        39
female 2      (16.336, 32.252]        38
male   3      (0.34, 16.336]          37
female 3      (0.34, 16.336]          33
       1      (32.252, 48.168]        30
male   2      (32.252, 48.168]        27
       1      (48.168, 64.084]        26
female 2      (32.252, 48.168]        22
       1      (48.168, 64.084]        17
       3      (32.252, 48.168]        16
male   2      (48.168, 64.084]        11
              (0.34, 16.336]          11
female 2      (0.34, 16.336]          10
male   3      (48.168, 64.084]         8
female 2      (48.168, 64.084]         6
male   1      (64.084, 80.0]           6
female 1      (0

  print(titanic[['Sex','Pclass','Rango_Edad','Survived']].groupby(['Sex','Pclass','Rango_Edad']).count().sort_values(by='Survived', ascending=False))
