# Introducción a Pandas: Análisis y manejo de datos

Pandas es una _paquetería basada en Numpy para la manipulación y análisis de datos_.

Maneja desde tablas numéricas hasta series de tiempo.

In [None]:
import pandas as pd   # Biblioteca de manipulación de datos
import numpy as np   # Cálculo numérico
import matplotlib.pyplot as plt   # Biblioteca de graficación

# Selección de Datos
Existen dos tipos de estructuras principales en Python:
    
   + **Series**: Lista con valores (como un diccionario)
   + **Dataframes**: Tabla de datos con columnas e índices 

In [None]:
# Series
dict_paises = {'Germany': 81.3, 'Belgium': 11.3, 'France': 64.3, 
                        'United Kingdom': 64.9, 'Netherlands': 16.9}
population = pd.Series(dict_paises)
population

Los dataframes pueden generar con diccionarios o listas.

In [None]:
# Dataframe
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'], 
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],        
        'area': [30510, 671308, 357050, 41526, 244820], 
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries

In [None]:
type(countries)

Para colocar un valor como índice y poder seleccionar registros más fácilmente, se usa el siguiene comando:

In [None]:
countries.set_index('country')

In [None]:
countries

In [None]:
countries.set_index('country', inplace = True)
countries

Existen dos maneras de seleccionar datos en pandas:
 + Una es por columnas
 + La otra es por posicion de fila

In [None]:
print(countries.index)   # Indices
print(countries.columns)   # Columnas

## Por Columna

In [None]:
# Para elegir una fila solo es necesario elegir la columna con el siguiente formato
# Cabe mencionar que nos devolvera una serie. Cualquiera de las dos es válida.

# countries['capital']
countries.area

In [None]:
countries['capital']

In [None]:
countries.capital

In [None]:
countries['area']

In [None]:
countries.area

In [None]:
# Si queremos seleccionar multiples columnas
countries[['area','population']]

# Esto funciona para limpiar las columnas que no queremos

In [None]:
countries['area']

In [None]:
countries[['area']]

## Por índice o etiqueta

In [None]:
countries.iloc[1:3]

In [None]:
countries.loc[['France']]

# Filtros

In [None]:
countries.capital == 'Paris'

In [None]:
# Podemos hacerlo por condicionales. Por ejemplo:
countries[countries.capital == 'Paris']

In [None]:
# Excluyendo:
countries.loc[countries.capital != 'Paris']

# Datos Titanic

Ahora leeremos el archivo titanic.csv con el método *pd.read_csv* para analizar sus datos, generar gráficos y medir algunas métricas importantes.

In [None]:
datos = pd.read_csv("Datos/titanic.csv")
datos.info()

# Dictionary Data

| Variable  | Definition  | Key  |
|---|---|---|
| survival  |  Survival |  0 = No, 1 = Yes |
| pclass  | Ticket class  | 1 = 1st, 2 = 2nd, 3 = 3rd  |
| sex  | Sex  |   |
|Age |Age in years | |
|sibsp |# of siblings / spouses aboard the Titanic | |
|parch |# of parents / children aboard the Titanic | |
|ticket |Ticket number | |
|fare |Passenger fare  | |
|cabin|Cabin number |
|embarked|Port of Embarkation|C = Cherbourg, Q = Queenstown, S = Southampton|

## Variable Notes

+ pclass: A proxy for socio-economic status (SES)
    + 1st = Upper
    + 2nd = Middle
    + 3rd = Lower

+ age: Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5

+ sibsp: The dataset defines family relations in this way...
    + Sibling = brother, sister, stepbrother, stepsister
    + Spouse = husband, wife (mistresses and fiancés were ignored)

+ parch: The dataset defines family relations in this way...
    + Parent = mother, father
    + Child = daughter, son, stepdaughter, stepson
    + Some children travelled only with a nanny, therefore parch=0 for them.

In [None]:
datos.head(3)

In [None]:
datos.tail(1)

In [None]:
datos[['Age', 'Fare']].hist(bins=100, figsize=(10,5));

In [None]:
plt.style.use('ggplot') # Aplicando un tema de colores a nuestros gráficos.

Podemos encontrar más estilos en la siguiente [liga](https://matplotlib.org/3.1.0/gallery/style_sheets/style_sheets_reference.html).

In [None]:
datos.Age.hist()
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.title('Histograma de la edad')

In [None]:
datos[['Age', 'Fare']].hist(bins=10, figsize=(10,5))
plt.ylabel('Frecuencias');

In [None]:
datos.hist(figsize=(10,5));

In [None]:
datos.hist(bins=10,figsize=(10,5))
plt.tight_layout();

In [None]:
datos.median()

In [None]:
datos.mean()

In [None]:
datos[['Age', 'Fare']].mode()

In [None]:
datos.describe()

---------------------------------
## Cuantiles y Momentos

### Cuantiles 

Valores de la variable que dividen a la distribución en un cierto número de partes de manera que cada una de ellas contiene el mismo número de frecuencia.

**Ejemplos** 

* **Cuartiles** ($Q_i$):  son valores de la variable que dividen a la distribución en 4 partes, cada una de las cuales engloba el 25% de las mismas. Se denotan de la siguiente forma: $Q_1$ es el primer cuartil que deja a su izquierda el 25% de los datos; $Q_2$ es el segundo cuartil que deja a su izquierda al 50% de los datos; $Q_3$ es el tercer cuartil que deja a su izquierda el 75% de los datos. 

    ($Q_2$ = Mediana)

<img src = "Imagenes/cuantil.png">

* **Deciles** ($D_i$): son los valores de la variable que dividen a la distribución en diez partes iguales, cada una de las cuales engloba el 10% de los datos. En total se tienen 9 deciles. 

    ($Q_2 = D_5 = $ Mediana)

<img src="Imagenes/decil.png" width="500">

* **Centiles** o **Percentiles** ($P_i$): son los valores de la variable que dividen a la distribución en cien partes iguales, cada una de las cuales engloba el 1% de los datos. En total se tienen 99 percentiles ($Q_2 = D_5 = $ Mediana $ = P_{50}$)


## Momentos

Un **momento** es una _medida cuantitativa específica de la forma de una función_ y es usada tanto en física como en estadística. Si la función es una distribución de probabilidad el momento cero es la probabilidad total (i.e. 1), el segundo momento central es la varianza, el tercer momento estandarizado es la asimetría y el cuarto momento estandarizado es la curtosis.

De forma general, el **k-ésimo momento** $\mu_k$ de una variable aleatoria X se define como:

$ \mu_k = E(X^k)$

El primer momento es la **media aritmética** y, en el caso de una variable aleatoria discreta se define como:

$ \mu_1 = E(X) = \frac{\Sigma^n x_i}{n}$

De forma general, el **k-ésimo momento central** $\mu_k$ de una variable aleatoria X se define como:

$ momento$ $central = E[(X-\mu_1)^k]$

La **varianza** es una cantidad específica que _mide la dispersión de los valores de la variable respecto a la media aritmética_. Cuanto mayor sea la varianza mayor dispersión existirá y por tanto la media aritmética tendrá menor representatividad.

Matemáticamente, la varianza $\sigma^2$se define como el segundo momento central. En términos de los momentos, puede demostrarse que:

$\sigma^2 = E[(X-\mu_1)^2] = E(X^2) -E(\mu_1^2) = \mu_2 - \mu_1^2$

Para el caso de una variable discreta se tiene que:

$\sigma^2 = \frac{1}{n} \Sigma_{i=1}^n (x_i^2 - \mu_1^2) $

Para el coeficiente de asimetría y la curtosis se define la **variable estandarizada** $X^*$ como:

$X^* = \frac{X-\mu_1}{\sigma}$

Así, el tercer momento central $\beta_3$ de la variable aleatoria estandarizada $X^*$ recibe el nombre de **coefciente de asimetría**:

$\beta_3 = E[(X^*)^3] = \frac{1}{\sigma^3}E[(X-\mu_1)^3]$

Para el caso de una variable discreta tenemos que:

$\beta_3 = \frac{1}{n \sigma^3} \Sigma_{i=1}^n(x_i-\mu_1)^3$ 


* Una distribución que es simétrica alrededor de su media aritmética tendrá un coeficiente de asimetría igual a cero.

* Una distribución que esté cargada a la derecha tendrá un coeficiente de asimetría positivo.

* Una distribución que esté cargada a la izquierda tendrá un coeficiente de asimetría negativo

<img src="Imagenes/skewness.jpg" width = 800>

El cuarto momento central $\beta_4$ de la variable aleatoria estandarizada $X^*$ recibe el nombre de **curtosis**:

$\beta_4 = E[(X^*)^4] = \frac{1}{\sigma^4}E[(X-\mu_1)^4]$

Bajo esta definición la curtosis de una distribución normal es igual a 3. Con esto en mente, se suele definir la curtosis bajo la misma definición de arriba, pero restándole un 3 para que la distribución normal tenga curtosis igual a cero:

$\beta_4 = \frac{1}{\sigma^4}E[(X-\mu_1)^4] -3$

De esta manera, se tiene que:

* Una distribución que normal tiene curtosis igual a cero y recibe el nombre de mesocúrtica.

* Una distribución más "puntiaguda" que la normal cuyos datos se aglomeran alrededor de la media tiene curtosis positiva y recibe el nombre de leptocúrtica.

* Una distribución "plana" tiene curtosis negativa y recibe el nombre de platicúrtica.

<img src="Imagenes/kurtosis.jpg">

Y para el caso de una variable discreta se tiene que:

$\beta_4 = \frac{1}{n \sigma^4} \Sigma_{i=1}^n(x_i-\mu_1)^4 - 3$ 

In [None]:
# np.arange(0,1,0.1)

In [None]:
datos.quantile(0.90)

In [None]:
np.arange(0,1,0.1)

In [None]:
#quantil 75
datos.quantile(np.arange(0,1,0.1))

In [None]:
datos.Sex.value_counts(normalize = True) * 100

In [None]:
df_temp = datos.Sex.value_counts(normalize=True)
df_temp

In [None]:
(datos.Sex.value_counts(normalize = True) * 100).plot.bar(rot = 0, color='cyan')

plt.title('Género')
plt.xlabel('Sexo')
plt.ylabel('Porcentaje de genero')
for i, j in enumerate((datos.Sex.value_counts(normalize = True) * 100)):
    plt.text(i, j + 1, "%.2f %%" % j);

# Ejercicios

1. Tomar el dataframe original (con vivos/muertos), filtrar todos los registros con edad mayor al quantil 75 y guardarlos en un nuevo dataframe.

2. ¿Cuál es la edad promedio del DataFrame con edad mayor al cuantil 75?

3. ¿Cómo es su distribución de edad?

4. ¿Cuál es el porcentaje de sobrevientes?

----

In [None]:
df = datos[datos.Age > datos.Age.quantile(0.75)]
df.head()

In [None]:
df.Age.mean()

In [None]:
df.Age.hist()
plt.title('Histograma edad viejitos')
plt.xlabel('edad')
plt.ylabel('Frecuencia')
plt.vlines(df.Age.mean(),0,53);

In [None]:
df.Survived.value_counts(normalize=True).plot.bar(rot=0, 
                                                  color='magenta');


# Agrupaciones

Más cosas con los datos originales:

In [None]:
datos.groupby('Pclass').Survived.value_counts(normalize=True)

In [None]:
datos.groupby('Pclass').Survived.value_counts(normalize=True).unstack()

In [None]:
datos.groupby('Pclass').Survived.value_counts(
    normalize=True).unstack().plot.bar(rot=0, figsize = (10,5))
plt.title('Sobrevivientes agrupados por Clase');

In [None]:
datos.groupby('Sex').Survived.value_counts(
    normalize=True).unstack().plot.bar(rot = 0);

In [None]:
datos.groupby('Sex').Survived.value_counts(
    normalize=True).unstack().plot.bar(rot=0, figsize = (10,5))
plt.title('Sobrevivientes agrupados por sexo');

In [None]:
labels = ["{0} - {1}".format(i, i+9) for i in range(0,100,10)]
pd.cut(datos.Age.values, range(0,105,10), right=False, labels=labels)

In [None]:
# Agrupado por rangos de edad
labels = ["{0} - {1}".format(i, i+9) for i in range(0,100,10)]
datos["edad_agrupada"] = pd.cut(datos.Age.values, range(0,105,10), right=False, labels=labels)

In [None]:
datos

In [None]:
datos.groupby("edad_agrupada").Survived.mean()

In [None]:
plt.figure(figsize = (10,5))
datos.groupby("edad_agrupada").Survived.mean().plot.barh()
plt.title('Porcentaje de Sobrevivientes por grupo de edad');

In [None]:
datos.groupby(["Sex","edad_agrupada"]).Survived.mean().unstack(0)

In [None]:
datos.groupby(["Sex","edad_agrupada"]).Survived.mean().unstack(0).plot.barh(figsize = (10,5))
plt.title('Porcentaje de Sobrevivientes agrupados por edad y sexo');

In [None]:
datos.groupby(['Sex','Pclass']).Survived.value_counts(
    normalize=True).unstack(1).plot.bar(stacked=False,rot=0, figsize = (10,5))
plt.title('Sobrevivientes agrupados por Sexo y Clase');

In [None]:
datos.groupby('Sex').Fare.median().plot.bar(rot=0,color='navy', figsize = (10,5))
plt.title('Mediana del Costo del boleto agrupada por sexo');

In [None]:
datos.groupby(['Sex','Pclass']).Survived.mean().unstack(1).plot.bar(rot=1)
plt.title('Mujeres ricas sobrevivieron más');

In [None]:
datos.groupby(['Sex','Pclass']).Fare.median().unstack().plot.bar(rot=0, figsize = (10,5))
plt.title('Mediana del costo del boleto agrupada por clase y sexo');

In [None]:
for i in datos.groupby('Sex'):
    print(i[1])

In [None]:
for i in datos.groupby('Sex'):
    print(i[0])
    print('----------------------------------------------')
    print(i[1].describe())
    print('\n \n \n')

In [None]:
plt.figure(figsize = (10,5))
datos.Age.plot.kde()
plt.title('Kernel Density Plot')
plt.xlim(0,80);

In [None]:
plt.figure(figsize = (10,5))
datos.Age.hist()
plt.title('Pasajeros están entre 20 y 40 años');

# Ejercicio

* Agrupar por genero y por Parch y  calcular el porcentaje de sobrevivientes.

* Agrupar por clase y por SibSp y calcular el procentaje de sobrevivientes.

* Graficar los resultados de manera adecuada.

## Referencias

[1](https://mathcs.clarku.edu/~djoyce/ma217/moment.pdf) Moments and the moment generation function

[2](https://www.universoformulas.com/estadistica/descriptiva/asimetria-curtosis/) Asimetría y Curtosis

[3](http://www.economia.unam.mx/profesores/blopez/estadistica-descriptiva.pdf) Estadística y Conceptos. 