<br/>
<img src="images/cd-logo-blue-600x600.png" alt="" width="130px" align="left"/>
<img src="images/cd-logo-blue-600x600.png" alt="" width="130px" align="right"/>
<div align="center">
<h2>Bootcamp Data Science - Módulo 1</h2><br/>
<h1>Biblioteca Pandas</h1>
<img src="images/pandas.svg" width="200px" align="center" >
<br/><br/>
    <b>Instructor Principal:</b> Patricio Olivares polivares@codingdojo.cl <br/>
    <b>Instructor Asistente:</b> Jesús Ortiz jortiz@codingdojo.cl<br/><br/>
    <b>Coding Dojo</b>
</div>

# ¿Qué es Pandas?


- **Pandas** es una herramienta open source (código abierto) rápida, poderosa, flexible y fácil de utilizar para análisis y manipulación de datos. 
- Construida sobre el lenguaje de programación **Python**
- Al ser una biblioteca, esta debe ser **importada** en nuestro código para su utilización.
-  Si está trabajando en su entorno local, previo a su importación debe ser **instalada** 
    - ```pip install pandas``` si usa ```pip```
    - ```conda install pandas``` si usa ```conda```

In [None]:
# Código para importar biblioteca pandas. 
# Antes de usar pandas se DEBE importar (sino lanzará error!!!!)
import pandas as pd

# ¿Por qué Pandas?

<center>
<img src="images/pros-cons-pandas.jpg" width="800px" >
</center>

Fuente: https://data-flair.training/blogs/advantages-of-python-pandas/

# Estructuras de datos Pandas: Series 

- Permite almacenar elementos en un arreglo **unidimensional**. Cada elemento puede esta asociado a un índice el cual puede o no ser definido
- Sintáxis más común

```python
s = pd.Series(data, index=myindex)
```
donde ```data``` representa un conjunto unidimensional de elementos e ```myindex``` una lista del mismo largo de ```data``` que representa los índices
- ```data``` puede ser tanto
    - Diccionarios (llaves se transforman en índices y valores en datos)
    - Arreglos n-dimensionales (listas, tuplas o numpy arrays)
    - Valores escalares (ej. 5)

Fuente: https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

In [1]:
# Ejemplo# Estructuras de datos Pandas: Series 
import pandas as pd

x = pd.Series((1+5j,1,'a'), index=["p", "q", "r"])
print(x)

p    (1+5j)
q         1
r         a
dtype: object


# Estructuras de datos Pandas: Dataframes

- Es una estructura de datos **bi-dimensional**.
- Es el objeto Pandas más común.
- Utiliza una lógica de almacenamiento tipo **tabla**, similar a la de tablas SQL o la existente en hojas de cálculo (ej. MS. Excel, Libre Office Calc, Google Sheets, etc.).
- Al igual que las series, también tiene índices asociados. Adicionalmente se le pueden pasar las etiquetas de las columnas
- Sintáxis más común
```python
df = pd.DataFrame(data, index=myindex, columns=mycolumns)
```
donde ```data``` representa un conjunto bidimensional de elementos e ```myindex``` y ```mycolumns``` una lista del mismo largo de ```data``` que representa los índices y las etiquetas de las columnas respectivamente.
- ```data``` puede ser tanto
    - Diccionario de arreglos 1-dimensionales, listas, diccionarios o series
    - Arreglos numpy de dos dimensiones
    - Arreglos n-dimensionales
    - Series
    - Otros dataframe

Fuente: https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

In [2]:
p=[[1,2,3],[4,5,6.7],[7,8,9]]
print(p)
# La variable p sería el equivalente a una matriz con la siguiente disposición
# 1 2 3
# 4 5 6.7
# 7 8 9

[[1, 2, 3], [4, 5, 6.7], [7, 8, 9]]


In [3]:
import pandas as pd

df = pd.DataFrame(p, 
                  index=["a", "b", "c"],
                  columns=["p", "q", "r"])
print(df)

   p  q    r
a  1  2  3.0
b  4  5  6.7
c  7  8  9.0


In [4]:
# Visualizando el contenido del dataframe
df

Unnamed: 0,p,q,r
a,1,2,3.0
b,4,5,6.7
c,7,8,9.0


# Anexo - Cargando datos en Google Colab

- El uso de datos en Google Colab, requier subir esos datos a la nube de Google antes de poder utilizarlos (en caso de no encontrarse en línea) 
- https://login.codingdojo.com/m/502/12396/86599

# Pandas para lectura de datos

- Pandas permite una lectura sencilla con múltiples tipos de datos (Revisar: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html para distintos tipos de archivos).
- Ejemplo

In [None]:
import pandas as pd
filename = "data/bostonHousing1978.xlsx" 
# Para apertura de archivos excel, instalación de biblioteca openpyxl es necesaria en entorno local
df = pd.read_excel(filename) 
df
# Si deseas leer un archivo con extensión .csv, se debe utilizar la función pandas
# pd.read_csv(filename) donde filename es una variable con la ruta de tu archivo .csv

# Pandas: Operaciones básicas

In [None]:
# Seleccione el número N superior de registros (default = 5)
df.head()

In [None]:
# Seleccione el número N inferior de registros (default = 5)
df.tail()

In [None]:
# Verifica los tipos de datos de la columna usando el atributo dtypes
df.dtypes

In [None]:
# Use el atributo shape para obtener el número de filas y columnas en tu marco de datos
df.shape

In [None]:
# El método info da a la columna tipos de datos + el número de valores no nulos
# Ten esto en cuenta en caso de que alguna vez quieras verificar si hay valores perdidos
df.info()

# Pandas: Rebanar (slice)

In [None]:
# Seleccionar una columna usando llaves dobles
df[['RM']].head() # Esto es un DataFrame pandas

In [None]:
# Seleccionar múltiple columnas usando llaves dobles
df[['RM', 'target']].head()

In [None]:
# Selecciona una columna usando llaves simples
# Esto produce una serie pandas que es una matriz de una dimensión de datos indexados
df['RM'].head()

In [None]:
# Ten en cuenta que no puedes seleccionar columnas múltiples usando llaves simples
# Error de llave (KeyError)
df['RM', 'target']

In [None]:
df['RM'][0:10] # Obtención de un subconjunto de los datos (similar a listas)

In [None]:
# Seleccionar columna usando notación de puntos
# Esto no es recomendable
df.RM.head()

In [None]:
# Notación con loc (locate). 
# df.loc[filas, columnas]
df.loc[0:10, ['RM','target']]

# Pandas: filtrado

In [None]:
import pandas as pd
filename = "data/mortgages.csv"
df = pd.read_csv(filename) # La función read_csv usa la coma "," como separador por omisión
df.head()

In [None]:
# Comencemos primero mirando los valores contenidos en la columna Nombre de la hipoteca
# Además, te animo a buscar qué hace el método value_counts usando la función de ayuda de Python
df['Mortgage Name'].value_counts()

In [None]:
# Observa que el filtro produce una serie de pandas de valores verdaderos y falsos.
# df['Mortgage Name']=="30 Year" Lo que se obtiene acá es una serie repleta de valores True y False.
# Los True representan aquellos registros con contenido "30 Year" y los False aquellos
# con contenido distinto a "30 Year"
mortgage_filter = df['Mortgage Name']=='30 Year'
mortgage_filter.head()

In [None]:
# Método 1 con corchetes
# Filtra el marco de datos para obtener un marco de datos de solo '30 Year '
df[mortgage_filter]

In [None]:
# Aproximación 2 usando loc
# Filtre el marco de datos para obtener un marco de datos de hipotecas de solo 30 años
df.loc[mortgage_filter, :]

In [None]:
# Observa que pareciera que nada ha cambiado.
# Esto se debe a que no actualizamos el marco de datos después de aplicar el filtro.
# La salida anterior es local; ya no podemos usarla ya que en realidad no cambiamos/actualizamos el marco de datos
# Necesitaríamos guardar el código anterior como una variable para usar el marco de datos filtrado en futuras celdas
# de código
df['Mortgage Name'].value_counts()

In [None]:
# Filtra el marco de datos para obtener un marco de datos de hipotecas de solo 30 años
# Ten en cuenta que estamos sobrescribiendo df aquí para guardar solo los datos de la hipoteca a 30 años
# Y ahora, solo hay hipotecas a 30 años en la salida cuando ejecutamos .value_counts()
df = df.loc[mortgage_filter, :]
df['Mortgage Name'].value_counts()

In [None]:
# Filtro por tasa de interés
# Ve si puedes averiguar qué hace el método de recuento de valores utilizando la función de ayuda
df['Interest Rate'].value_counts()

In [None]:
# Observa que el filtro produce una serie de pandas de valores verdaderos y falsos.
df['Interest Rate']==0.03

In [None]:
interest_filter = df['Interest Rate']==0.03
# df = df.loc[interest_filter, :]
# df['Interest Rate'].value_counts()

In [None]:
df.info()

In [None]:
df = df.loc[mortgage_filter & interest_filter, :]
df['Interest Rate'].value_counts()

# Pandas: Renombrar y eliminar columnas

In [None]:
# Enfoque 1 sustitución de diccionario mediante el método de cambio de nombre
df = df.rename(columns={'Starting Balance': 'starting_balance',
                        'Interest Paid': 'interest_paid', 
                        'Principal Paid': 'principal_paid'})
# DataFrame after renaming columns
df.head()

In [None]:
# Enfoque 2
# Incluso si quieres cambiar el nombre de una sola columna, debes enumerar el resto de las columnas
df.columns = ['month',
              'starting_balance',
              'repayment',
              'interest_paid',
              'principal_paid',
              'new_balance',
              'mortgage_name',
              'interest_rate']
df.head()

In [None]:
# También es posible eliminar ciertas columnas de tu dataframe
# Enfoque 1
df = df.drop(columns=['new_balance'])
df.head()

In [None]:
# Enfoque 2 usa el comando del
del df['starting_balance']
df.head()

# Pandas: Identificar datos faltantes

In [None]:
filename = 'data/linear.csv'
df = pd.read_csv(filename)
df.head()

In [None]:
# Hay datos faltantes en la segunda columna (columna 'y')
df.info()

In [None]:
# Observa que tenemos una serie pandas de valores verdaderos y falsos.
# .isna es una función que reemplaza cada valor existente con False
# y cada valor no existente con True
df['y'].isna().head()

In [None]:
y_missing = df['y'].isna() # Acá crearemos un filtro para valores NaN
# Mira las filas que contienen NaN para y
df.loc[y_missing,:]

In [None]:
# Para obtener todos los valores NO NULOS en y, podemos utilizar la negación del filtro
~y_missing.head()

In [None]:
# Ten en cuenta que podemos usar el operador not (~) para negar el filtro
# cada fila que no tiene nan se devuelve
df.loc[~y_missing,:].head()

In [None]:
# El código cuenta el número de valores perdidos
# sum() funciona porque los booleanos son un subtipo de enteros
df['y'].isna().sum()

In [None]:
# el código anterior funciona de manera muy similar al código siguiente
True + False + False + True

In [None]:
# Puedes eliminar filas enteras si contienen nans 'any' o 'all'
# ten en cuenta que no hay una fila con el índice 4
df.loc[0:10,:].dropna(how = 'any')
#‘any’ : If any NA values are present, drop that row or column.
#‘all’ : If all values are NA, drop that row or column.

In [None]:
import pandas as pd
filename = 'data/linear.csv'
df = pd.read_csv(filename)
df.head()
# Mirando dónde se encuentran los datos faltantes
df.loc[0:10, 'y']

In [None]:
# Opción1: Completar el nan con un cero puede ser una mala idea
# df.loc[0:10, 'y'].fillna(0)
# Opción 2: valor back fill (relleno hacia atrás)
# df.loc[0:10, 'y'].fillna(method='bfill')
# Opción 3: valor forward fill (relleno hacia adelante)
# df.loc[0:10, 'y'].fillna(method='ffill')
# interpolación lineal (relleno de valores)
df = df.loc[0:10, 'y'].interpolate(method = 'linear')
df

# Pandas: Conversión a otros tipos de datos

In [None]:
#df.to_numpy()
# Approach 2
df.values

In [None]:
# Puedes suprimir la salida en un Colab o Jupyter Notebook usando un ;
df.to_dict()

# Pandas: Exportar datos

In [None]:
filename = "data/mortgages.csv"
df = pd.read_csv(filename)
df.head()

In [None]:
# Filtros/procesado de datos
mortgage_filter = df['Mortgage Name']=='30 Year'
interest_filter = df['Interest Rate']==0.03
df = df.loc[mortgage_filter & interest_filter, :]
df

In [None]:
# Exportar DataFrame a un archivo csv
df.to_csv(path_or_buf='data/processed/oneMortgage.csv',index = False)
# Exportar DataFrame a un archivo de Excel
df.to_excel(excel_writer='data/processed/oneMortgage.xlsx',index=False)
# Archivos pueden ser descargados desde Google Drive/Colab

# Pandas: función apply
```.apply()``` permite aplicar una función a todos los elementos de un DataFrame pandas. 

In [None]:
# Ej. Queremos calcular el cuadrado (elevado a  2) de todos 
# los elementos del siguiente DataFrame
df = pd.DataFrame([[1, 2],[3, 4], [5, 6]], columns=['A', 'B'])
df

In [None]:
# Inciso de funciones. Una función es un conjunto de instrucciones encapsuladas que pueden
# ser llamadas en cualquier momento (como una caja negra)
def suma(a, b):
    return a + b

x = suma(1, 2)
print("El resultado es", x)


def op_mat(a, b):
    x1 = a + b
    x2 = a - b
    x3 = a * b
    x4 = a/b
    return x1, x2, x3, x4

print("Resultado de operaciones matemáticas:",op_mat(1, 2))

In [None]:
# Creamos la función pow2 que calcula el cuadrado de un número
def pow2(n): # Función que retorna n elevado a 2
    return n**2

# Ejemplo de uso
pow2(4) # Resultado 16

In [None]:
# Aplicaremos esta función pow2 a todos los elementos de
# nuestro dataframe. Para ello, entregamos la función
# pow2 como entrada a .apply
df.apply(pow2)

# Pandas: métodos agregados

- Se aplican a todos los datos de un DataFrame/Serie

In [None]:
# sumar los valores en una columna
# monto total de intereses pagados durante el transcurso del préstamo
df['Interest Paid'].sum()

In [None]:
# sumar todos los valores en todas las columnas
df.sum()

# Pandas: Group by

In [None]:
import pandas as pd
df_cities = pd.DataFrame(data = [['Seattle', 1],
                          ['Kirkland', 2],
                          ['Redmond', 3],
                          ['Seattle', 4],
                          ['Kirkland', 5],
                          ['Redmond', 6]], columns = ['key', 'data'])
df_cities

In [None]:
df_cities.info()

In [None]:
# Sumamos todos los valores agrupados por llave 'key'
df_cities.groupby(['key']).sum()

In [None]:
import pandas as pd
filename = "data/mortgages.csv"
df = pd.read_csv(filename)
df.head()

In [None]:
df.groupby(['Mortgage Name', 'Interest Rate'])[['Interest Paid', 'Repayment']].sum()

# Actividad 2

El fichero [titanic.csv](https://aprendeconalf.es/docencia/python/ejercicios/soluciones/pandas/titanic.csv) contiene información sobre los pasajeros del Titanic. Escribir un programa con los siguientes requisitos:

1. Generar un DataFrame con los datos del fichero.
2. Mostrar por pantalla las dimensiones del DataFrame, el número de datos que contiene, los nombres de sus columnas y filas, los tipos de datos de las columnas, las 10 primeras filas y las 10 últimas filas
3. Mostrar por pantalla los datos del pasajero con identificador 148.
4. Mostrar por pantalla las filas pares del DataFrame.
5. Mostrar por pantalla los nombres de las personas que iban en primera clase ordenadas alfabéticamente.
6. Mostrar por pantalla el porcentaje de personas que sobrevivieron y murieron.
7. Mostrar por pantalla el porcentaje de personas que sobrevivieron en cada clase.
8. Eliminar del DataFrame los pasajeros con edad desconocida.
9. Mostrar por pantalla la edad media de las mujeres que viajaban en cada clase.
10. Añadir una nueva columna booleana para ver si el pasajero era menor de edad o no.
11. Mostrar por pantalla el porcentaje de menores y mayores de edad que sobrevivieron en cada clase.

(Fuente: https://aprendeconalf.es/docencia/python/ejercicios/pandas/)