<br/>
<img src="images/cd-logo-blue-600x600.png" alt="" width="130px" align="left"/>
<img src="images/cd-logo-blue-600x600.png" alt="" width="130px" align="right"/>
<div align="center">
<h2>Bootcamp Data Science - Módulo 1</h2><br/>
<h1>Biblioteca Pandas</h1>
<img src="images/pandas.svg" width="200px" align="center" >
<br/><br/>
    <b>Instructor Principal:</b> Patricio Olivares polivares@codingdojo.cl <br/>
    <b>Instructor Asistente:</b> Jesús Ortiz jortiz@codingdojo.cl<br/><br/>
    <b>Coding Dojo</b>
</div>

# ¿Qué es Pandas?


- **Pandas** es una herramienta open source (código abierto) rápida, poderosa, flexible y fácil de utilizar para análisis y manipulación de datos. 
- Construida sobre el lenguaje de programación **Python**
- Al ser una biblioteca, esta debe ser **importada** en nuestro código para su utilización.
-  Si está trabajando en su entorno local, previo a su importación debe ser **instalada** 
    - ```pip install pandas``` si usa ```pip```
    - ```conda install pandas``` si usa ```conda```

In [None]:
# Código para importar biblioteca pandas. 
# Antes de usar pandas se DEBE importar (sino lanzará error!!!!)
import pandas as pd

# ¿Por qué Pandas?

<center>
<img src="images/pros-cons-pandas.jpg" width="800px" >
</center>

Fuente: https://data-flair.training/blogs/advantages-of-python-pandas/

# Estructuras de datos Pandas: Series 

- Permite almacenar elementos en un arreglo **unidimensional**. Cada elemento puede esta asociado a un índice el cual puede o no ser definido
- Sintáxis más común

```python
s = pd.Series(data, index=index)
```
donde ```data``` representa un conjunto unidimensional de elementos e ```index``` una lista del mismo largo de ```data``` que representa los índices
- ```data``` puede ser tanto
    - Diccionarios (llaves se transforman en índices y valores en datos)
    - Arreglos n-dimensionales (listas, tuplas o numpy arrays)
    - Valores escalares (ej. 5)

Fuente: https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

In [None]:
# Ejemplo# Estructuras de datos Pandas: Series 
import pandas as pd

x = pd.Series((1+5j,1,'a'))
x

# Estructuras de datos Pandas: Dataframes

- Es una estructura de datos **bi-dimensional**.
- Es el objeto Pandas más común.
- Utiliza una lógica de almacenamiento tipo **tabla**, similar a la de tablas SQL o la existente en hojas de cálculo (ej. MS. Excel, Libre Office, etc.).
- Al igual que las series, también tiene índices asociados. Adicionalmente se le puedne pasar las etiquetas de las columnas
- Sintáxis más común
```python
df = pd.DataFrame(data, index=index, columns=columns)
```
donde ```data``` representa un conjunto bidimensional de elementos e ```index``` y ```columns``` una lista del mismo largo de ```data``` que representa los índices y las etiquetas de las columnas respectivamente.
- ```data``` puede ser tanto
    - Diccionario de arreglos 1-dimensionales, listas, diccionarios o series
    - Arreglos numpy de dos dimensiones
    - Arreglos n-dimensionales
    - Series
    - Otros dataframe

Fuente: https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

# Anexo - Cargando datos en Google Colab

- El uso de datos en Google Colab, requier subir esos datos a la nube de Google antes de poder utilizarlos (en caso de no encontrarse en línea) 
- http://learn.codingdojo.com/m/278/8776/59731

# Pandas para lectura de datos

- Pandas permite una lectura sencilla con múltiples tipos de datos (Revisar: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html para distintos tipos de archivos).
- Ejemplo

In [None]:
filename = "data/bostonHousing1978.xlsx"
# Para apertura de archivos excel, instalación de biblioteca openpyxl es necesaria en entorno local
df = pd.read_excel(filename) 
df

# Pandas: Operaciones básicas

In [None]:
# Seleccione el número N superior de registros (default = 5)
df.head()

In [None]:
# Seleccione el número N inferior de registros (default = 5)
df.tail()

In [None]:
# Verifica los tipos de datos de la columna usando el atributo dtypes
df.dtypes

In [None]:
# Use el atributo shape para obtener el número de filas y columnas en tu marco de datos
df.shape

In [None]:
# El método info da a la columna tipos de datos + el número de valores no nulos
# Ten esto en cuenta en caso de que alguna vez quieras verificar si hay valores perdidos
df.info()

# Pandas: Rebanar (slice)

In [None]:
# Seleccionar una columna usando llaves dobles
df[['RM']].head() # Esto es un DataFrame pandas

In [None]:
# Seleccionar múltiple columnas usando llaves dobles
df[['RM', 'target']].head()

In [None]:
# Selecciona una columna usando llaves simples
# Esto produce una serie pandas que es una matriz de una dimensión de datos indexados
df['RM'].head()

In [None]:
# Ten en cuenta que no puedes seleccionar columnas múltiples usando llaves simples
# Error de llave (KeyError)
df['RM', 'target']

In [None]:
df['RM'][0:10] # Obtención de un subconjunto de los datos (similar a listas)

In [None]:
# Seleccionar columna usando notación de puntos
# Esto no es recomendable
df.RM.head()

In [None]:
# Notación con loc (locate). 
# df.loc[filas, columnas]
df.loc[0:10, ['RM']]

# Pandas: filtrado

In [22]:
filename = "data/mortgages.csv"
df = pd.read_csv(filename)
df.head()

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [23]:
# Comencemos primero mirando los valores contenidos en la columna Nombre de la hipoteca
# Además, te animo a buscar qué hace el método value_counts usando la función de ayuda de Python
df['Mortgage Name'].value_counts()

30 Year    720
15 Year    360
Name: Mortgage Name, dtype: int64

In [24]:
# Observa que el filtro produce una serie de pandas de valores verdaderos y falsos.
mortgage_filter = df['Mortgage Name']=='30 Year'
mortgage_filter.head()

0    True
1    True
2    True
3    True
4    True
Name: Mortgage Name, dtype: bool

In [None]:
# Método 1 con corchetes
# Filtra el marco de datos para obtener un marco de datos de solo '30 años '
df[mortgage_filter].head()

In [None]:
# Aproximación 2 usando loc
# Filtre el marco de datos para obtener un marco de datos de hipotecas de solo 30 años
df.loc[mortgage_filter, :].head()

In [None]:
# Observa que pareciera que nada ha cambiado.
# Esto se debe a que no actualizamos el marco de datos después de aplicar el filtro.
# La salida anterior es local; ya no podemos usarla ya que en realidad no cambiamos/actualizamos el marco de datos
# Necesitaríamos guardar el código anterior como una variable para usar el marco de datos filtrado en futuras celdas
# de código
df['Mortgage Name'].value_counts()

In [26]:
# Filtra el marco de datos para obtener un marco de datos de hipotecas de solo 30 años
# Ten en cuenta que estamos sobrescribiendo df aquí para guardar solo los datos de la hipoteca a 30 años
# Y ahora, solo hay hipotecas a 30 años en la salida cuando ejecutamos .value_counts()
df = df.loc[mortgage_filter, :]
df['Mortgage Name'].value_counts()

30 Year    720
Name: Mortgage Name, dtype: int64

In [27]:
# Filtro por tasa de interés
# Ve si puedes averiguar qué hace el método de recuento de valores utilizando la función de ayuda
df['Interest Rate'].value_counts()

0.03    360
0.05    360
Name: Interest Rate, dtype: int64

In [28]:
# Observa que el filtro produce una serie de pandas de valores verdaderos y falsos.
df['Interest Rate']==0.03

0       True
1       True
2       True
3       True
4       True
       ...  
715    False
716    False
717    False
718    False
719    False
Name: Interest Rate, Length: 720, dtype: bool

In [33]:
interest_filter = df['Interest Rate']==0.03
df = df.loc[interest_filter, :]
df['Interest Rate'].value_counts()

0.03    360
Name: Interest Rate, dtype: int64

In [34]:
df = df.loc[mortgage_filter & interest_filter, :]
df  

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.00,1686.42,1000.00,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.10,693.32,396550.67,30 Year,0.03
...,...,...,...,...,...,...,...,...
355,356,8364.12,1686.42,20.91,1665.51,6698.61,30 Year,0.03
356,357,6698.61,1686.42,16.74,1669.68,5028.93,30 Year,0.03
357,358,5028.93,1686.42,12.57,1673.85,3355.08,30 Year,0.03
358,359,3355.08,1686.42,8.38,1678.04,1677.04,30 Year,0.03


# Pandas: Renombrar y eliminar columnas

In [35]:
# Enfoque 1 sustitución de diccionario mediante el método de cambio de nombre
df = df.rename(columns={'Starting Balance': 'starting_balance',
                        'Interest Paid': 'interest_paid', 
                        'Principal Paid': 'principal_paid'})
# DataFrame after renaming columns
df.head()

Unnamed: 0,Month,starting_balance,Repayment,interest_paid,principal_paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [36]:
# Enfoque 2
# Incluso si quieres cambiar el nombre de una sola columna, debes enumerar el resto de las columnas
df.columns = ['month',
              'starting_balance',
              'repayment',
              'interest_paid',
              'principal_paid',
              'new_balance',
              'mortgage_name',
              'interest_rate']
df.head()

Unnamed: 0,month,starting_balance,repayment,interest_paid,principal_paid,new_balance,mortgage_name,interest_rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [37]:
# Enfoque 1
df = df.drop(columns=['new_balance'])
df.head()

Unnamed: 0,month,starting_balance,repayment,interest_paid,principal_paid,mortgage_name,interest_rate
0,1,400000.0,1686.42,1000.0,686.42,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,30 Year,0.03


In [38]:
# Enfoque 2 usa el comando del
del df['starting_balance']
df.head()

Unnamed: 0,month,repayment,interest_paid,principal_paid,mortgage_name,interest_rate
0,1,1686.42,1000.0,686.42,30 Year,0.03
1,2,1686.42,998.28,688.14,30 Year,0.03
2,3,1686.42,996.56,689.86,30 Year,0.03
3,4,1686.42,994.83,691.59,30 Year,0.03
4,5,1686.42,993.1,693.32,30 Year,0.03


# Pandas: Identificar datos faltantes

In [41]:
filename = 'data/linear.csv'
df = pd.read_csv(filename)
df.head()

Unnamed: 0,x,y
0,0.0,-51.0
1,25.0,-12.0
2,117.58322,134.907414
3,108.922466,134.08518
4,69.887445,


In [50]:
# Hay datos faltantes en la segunda columna (columna 'y')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102 entries, 0 to 101
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   x       102 non-null    float64
 1   y       94 non-null     float64
dtypes: float64(2)
memory usage: 1.7 KB


In [43]:
# Observa que tenemos una serie pandas de valores verdaderos y falsos.
df['y'].isna().head()

0    False
1    False
2    False
3    False
4     True
Name: y, dtype: bool

In [44]:
y_missing = df['y'].isna()
# Mira las filas que contienen NaN para y
df.loc[y_missing,:]

Unnamed: 0,x,y
4,69.887445,
53,93.14307,
60,95.542388,
62,120.699573,
64,82.657622,
65,105.534175,
92,37.546425,
94,35.914205,


In [45]:
# Ten en cuenta que podemos usar el operador not (~) para negar el filtro
# cada fila que no tiene nan se devuelve
df.loc[~y_missing,:]

Unnamed: 0,x,y
0,0.000000,-51.000000
1,25.000000,-12.000000
2,117.583220,134.907414
3,108.922466,134.085180
5,96.839983,114.530638
...,...,...
97,120.740859,133.922297
98,100.179788,126.827116
99,59.333765,50.257797
100,120.157757,144.754676


In [46]:
# El código cuenta el número de valores perdidos
# sum() funciona porque los booleanos son un subtipo de enteros
df['y'].isna().sum()

8

In [48]:
# el código anterior funciona de manera muy similar al código siguiente
True + False + False + True

2

In [49]:
# Puedes eliminar filas enteras si contienen nans 'any' o 'all'
# ten en cuenta que no hay una fila con el índice 4
df.loc[0:10,:].dropna(how = 'any')
#‘any’ : If any NA values are present, drop that row or column.
#‘all’ : If all values are NA, drop that row or column.

Unnamed: 0,x,y
0,0.0,-51.0
1,25.0,-12.0
2,117.58322,134.907414
3,108.922466,134.08518
5,96.839983,114.530638
6,51.77594,31.376437
7,35.016737,8.764634
8,79.457646,73.285341
9,45.344909,18.859865
10,77.767132,72.946609


In [57]:
filename = 'data/linear.csv'
df = pd.read_csv(filename)
df.head()
# Mirando dónde se encuentran los datos faltantes
df.loc[0:10, 'y']

0     -51.000000
1     -12.000000
2     134.907414
3     134.085180
4            NaN
5     114.530638
6      31.376437
7       8.764634
8      73.285341
9      18.859865
10     72.946609
Name: y, dtype: float64

In [58]:
# Opción1: Completar el nan con un cero puede ser una mala idea
#df.loc[0:10, 'y'].fillna(0)
# Opción 2: valor back fill (relleno hacia atrás)
#df.loc[0:10, 'y'].fillna(method='bfill')
# Opción 3: valor forward fill (relleno hacia adelante)
#df.loc[0:10, 'y'].fillna(method='ffill')
# interpolación lineal (relleno de valores)
#df.loc[0:10, 'y'].interpolate(method = 'linear')

0     -51.000000
1     -12.000000
2     134.907414
3     134.085180
4     124.307909
5     114.530638
6      31.376437
7       8.764634
8      73.285341
9      18.859865
10     72.946609
Name: y, dtype: float64

# Pandas: Conversión a otros tipos de datos

In [None]:
df.to_numpy()
# Approach 2
df.values

In [None]:
# Puedes suprimir la salida en un Colab o Jupyter Notebook usando un ;
df.to_dict()

# Pandas: Exportar datos

In [60]:
filename = "data/mortgages.csv"
df = pd.read_csv(filename)
df.head()

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [61]:
# Filtros/procesado de datos
mortgage_filter = df['Mortgage Name']=='30 Year'
interest_filter = df['Interest Rate']==0.03
df = df.loc[mortgage_filter & interest_filter, :]

In [62]:
# Exportar DataFrame a un archivo csv
df.to_csv(path_or_buf='data/processed/oneMortgage.csv',index = False)
# Exportar DataFrame a un archivo de Excel
df.to_excel(excel_writer='data/processed/oneMortgage.xlsx',index=False)
# Archivos pueden ser descargados desde Google Drive/Colab

# Pandas: métodos agregados

- Se aplican a todos los datos de un DataFrame/Serie

In [63]:
# sumar los valores en una columna
# monto total de intereses pagados durante el transcurso del préstamo
df['Interest Paid'].sum()

207106.01

In [64]:
# sumar todos los valores en todas las columnas
df.sum()

Month                                                           64980
Starting Balance                                          82843130.97
Repayment                                                    607111.2
Interest Paid                                               207106.01
Principal Paid                                              400005.19
New Balance                                               82443125.78
Mortgage Name       30 Year30 Year30 Year30 Year30 Year30 Year30 Y...
Interest Rate                                                    10.8
dtype: object

# Pandas: Group by

In [66]:
df_cities = pd.DataFrame(data = [['Seattle', 1],
                          ['Kirkland', 2],
                          ['Redmond', 3],
                          ['Seattle', 4],
                          ['Kirkland', 5],
                          ['Redmond', 6]], columns = ['key', 'data'])
df_cities

Unnamed: 0,key,data
0,Seattle,1
1,Kirkland,2
2,Redmond,3
3,Seattle,4
4,Kirkland,5
5,Redmond,6


In [67]:
df_cities.groupby(['key']).sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
Kirkland,7
Redmond,9
Seattle,5


In [70]:
filename = "data/mortgages.csv"
df = pd.read_csv(filename)
df.head()

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [71]:
df.groupby(['Mortgage Name', 'Interest Rate'])[['Interest Paid']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Interest Paid
Mortgage Name,Interest Rate,Unnamed: 2_level_1
15 Year,0.03,97217.42
15 Year,0.05,169370.43
30 Year,0.03,207106.01
30 Year,0.05,373017.23


# Actividad 2

El fichero [titanic.csv](https://aprendeconalf.es/docencia/python/ejercicios/soluciones/pandas/titanic.csv) contiene información sobre los pasajeros del Titanic. Escribir un programa con los siguientes requisitos:

1. Generar un DataFrame con los datos del fichero.
2. Mostrar por pantalla las dimensiones del DataFrame, el número de datos que contiene, los nombres de sus columnas y filas, los tipos de datos de las columnas, las 10 primeras filas y las 10 últimas filas
3. Mostrar por pantalla los datos del pasajero con identificador 148.
4. Mostrar por pantalla las filas pares del DataFrame.
5. Mostrar por pantalla los nombres de las personas que iban en primera clase ordenadas alfabéticamente.
6. Mostrar por pantalla el porcentaje de personas que sobrevivieron y murieron.
7. Mostrar por pantalla el porcentaje de personas que sobrevivieron en cada clase.
8. Eliminar del DataFrame los pasajeros con edad desconocida.
9. Mostrar por pantalla la edad media de las mujeres que viajaban en cada clase.
10. Añadir una nueva columna booleana para ver si el pasajero era menor de edad o no.
11. Mostrar por pantalla el porcentaje de menores y mayores de edad que sobrevivieron en cada clase.

(Fuente: https://aprendeconalf.es/docencia/python/ejercicios/pandas/)