<a href="https://colab.research.google.com/github/fralfaro/CodingDojo-DataScience/blob/main/docs/2-Pandas/2-Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

## Introducción


- **Pandas** es una herramienta open source (código abierto) rápida, poderosa, flexible y fácil de utilizar para análisis y manipulación de datos. 
- Construida sobre el lenguaje de programación **Python**
- Al ser una biblioteca, esta debe ser **importada** en nuestro código para su utilización.
-  Si está trabajando en su entorno local, previo a su importación debe ser **instalada** 
    - ```pip install pandas``` si usa ```pip```
    - ```conda install pandas``` si usa ```conda```

In [1]:
# Código para importar biblioteca pandas. 
# Antes de usar pandas se DEBE importar (sino lanzará error!!!!)
import pandas as pd

<center>
<img src="https://raw.githubusercontent.com/fralfaro/CodingDojo-DataScience/main/docs/2-Pandas/images/pros-cons-pandas.jpg" width="800px" >
</center>

> **Fuente**: https://data-flair.training/blogs/advantages-of-python-pandas/

## Pandas: Series 

- Permite almacenar elementos en un arreglo **unidimensional**. Cada elemento puede esta asociado a un índice el cual puede o no ser definido
- Sintáxis más común

```python
s = pd.Series(data, index=myindex)
```
donde ```data``` representa un conjunto unidimensional de elementos e ```myindex``` una lista del mismo largo de ```data``` que representa los índices
- ```data``` puede ser tanto
    - Diccionarios (llaves se transforman en índices y valores en datos)
    - Arreglos n-dimensionales (listas, tuplas o numpy arrays)
    - Valores escalares (ej. 5)

> **Fuente**: https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

In [2]:
# Ejemplo# Estructuras de datos Pandas: Series 
import pandas as pd

x = pd.Series((1+5j,1,'a'), index=["p", "q", "r"])
print(x)

p    (1+5j)
q         1
r         a
dtype: object


## Pandas: Dataframes

- Es una estructura de datos **bi-dimensional**.
- Es el objeto Pandas más común.
- Utiliza una lógica de almacenamiento tipo **tabla**, similar a la de tablas SQL o la existente en hojas de cálculo (ej. MS. Excel, Libre Office Calc, Google Sheets, etc.).
- Al igual que las series, también tiene índices asociados. Adicionalmente se le pueden pasar las etiquetas de las columnas
- Sintáxis más común
```python
df = pd.DataFrame(data, index=myindex, columns=mycolumns)
```
donde ```data``` representa un conjunto bidimensional de elementos e ```myindex``` y ```mycolumns``` una lista del mismo largo de ```data``` que representa los índices y las etiquetas de las columnas respectivamente.
- ```data``` puede ser tanto
    - Diccionario de arreglos 1-dimensionales, listas, diccionarios o series
    - Arreglos numpy de dos dimensiones
    - Arreglos n-dimensionales
    - Series
    - Otros dataframe

> **Fuente**: https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

In [3]:
p=[[1,2,3],[4,5,6.7],[7,8,9]]
print(p)
# La variable p sería el equivalente a una matriz con la siguiente disposición
# 1 2 3
# 4 5 6.7
# 7 8 9

[[1, 2, 3], [4, 5, 6.7], [7, 8, 9]]


In [5]:
import pandas as pd

df = pd.DataFrame([[1,2,3],[4,5,6.7],[7,8,9]], 
                  index=["a", "b", "c"],
                  columns=["p", "q", "r"])

# Visualizando el contenido del dataframe
df

Unnamed: 0,p,q,r
a,1,2,3.0
b,4,5,6.7
c,7,8,9.0


In [7]:
# informacion del dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a to c
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   p       3 non-null      int64  
 1   q       3 non-null      int64  
 2   r       3 non-null      float64
dtypes: float64(1), int64(2)
memory usage: 96.0+ bytes


**Anexo - Cargando datos en Google Colab**

- El uso de datos en Google Colab, requier subir esos datos a la nube de Google antes de poder utilizarlos (en caso de no encontrarse en línea) 
- https://login.codingdojo.com/m/502/12396/86599

## Lectura de datos

- Pandas permite una lectura sencilla con múltiples tipos de datos (Revisar: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html para distintos tipos de archivos).
- Ejemplo

In [8]:
import pandas as pd
filename = "https://raw.githubusercontent.com/fralfaro/CodingDojo-DataScience/main/docs/2-Pandas/data/bostonHousing1978.xlsx" 
# Para apertura de archivos excel, instalación de biblioteca openpyxl es necesaria en entorno local
df = pd.read_excel(filename) 
df
# Si deseas leer un archivo con extensión .csv, se debe utilizar la función pandas
# pd.read_csv(filename) donde filename es una variable con la ruta de tu archivo .csv

Unnamed: 0,RM,LSTAT,PTRATIO,target
0,6.575,4.98,15.3,24.0
1,6.421,9.14,17.8,21.6
2,7.185,4.03,17.8,34.7
3,6.998,2.94,18.7,33.4
4,7.147,5.33,18.7,36.2
...,...,...,...,...
501,6.593,9.67,21.0,22.4
502,6.120,9.08,21.0,20.6
503,6.976,5.64,21.0,23.9
504,6.794,6.48,21.0,22.0


## Operaciones básicas

In [9]:
# Seleccione el número N superior de registros (default = 5)
df.head()

Unnamed: 0,RM,LSTAT,PTRATIO,target
0,6.575,4.98,15.3,24.0
1,6.421,9.14,17.8,21.6
2,7.185,4.03,17.8,34.7
3,6.998,2.94,18.7,33.4
4,7.147,5.33,18.7,36.2


In [10]:
# Seleccione el número N inferior de registros (default = 5)
df.tail()

Unnamed: 0,RM,LSTAT,PTRATIO,target
501,6.593,9.67,21.0,22.4
502,6.12,9.08,21.0,20.6
503,6.976,5.64,21.0,23.9
504,6.794,6.48,21.0,22.0
505,6.03,7.88,21.0,11.9


In [11]:
# Verifica los tipos de datos de la columna usando el atributo dtypes
df.dtypes

RM         float64
LSTAT      float64
PTRATIO    float64
target     float64
dtype: object

In [12]:
# Use el atributo shape para obtener el número de filas y columnas en tu marco de datos
df.shape

(506, 4)

In [13]:
# El método info da a la columna tipos de datos + el número de valores no nulos
# Ten esto en cuenta en caso de que alguna vez quieras verificar si hay valores perdidos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   RM       506 non-null    float64
 1   LSTAT    506 non-null    float64
 2   PTRATIO  506 non-null    float64
 3   target   506 non-null    float64
dtypes: float64(4)
memory usage: 15.9 KB


## Rebanar (slice)

In [14]:
# Seleccionar una columna usando llaves dobles
df[['RM']].head() # Esto es un DataFrame pandas

Unnamed: 0,RM
0,6.575
1,6.421
2,7.185
3,6.998
4,7.147


In [15]:
# Seleccionar múltiple columnas usando llaves dobles
df[['RM', 'target']].head()

Unnamed: 0,RM,target
0,6.575,24.0
1,6.421,21.6
2,7.185,34.7
3,6.998,33.4
4,7.147,36.2


In [16]:
# Selecciona una columna usando llaves simples
# Esto produce una serie pandas que es una matriz de una dimensión de datos indexados
df['RM'].head()

0    6.575
1    6.421
2    7.185
3    6.998
4    7.147
Name: RM, dtype: float64

In [17]:
# Ten en cuenta que no puedes seleccionar columnas múltiples usando llaves simples
# Error de llave (KeyError)
df['RM', 'target']

KeyError: ('RM', 'target')

In [None]:
df['RM'][0:10] # Obtención de un subconjunto de los datos (similar a listas)

In [None]:
# Seleccionar columna usando notación de puntos
# Esto no es recomendable
df.RM.head()

In [None]:
# Notación con loc (locate). 
# df.loc[filas, columnas]
df.loc[0:10, ['RM','target']]

## Filtrado

In [18]:
import pandas as pd
filename = "https://raw.githubusercontent.com/fralfaro/CodingDojo-DataScience/main/docs/2-Pandas/data/mortgages.csv"
df = pd.read_csv(filename) # La función read_csv usa la coma "," como separador por omisión
df.head()

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [19]:
# Comencemos primero mirando los valores contenidos en la columna Nombre de la hipoteca
# Además, te animo a buscar qué hace el método value_counts usando la función de ayuda de Python
df['Mortgage Name'].value_counts()

30 Year    720
15 Year    360
Name: Mortgage Name, dtype: int64

In [20]:
# Observa que el filtro produce una serie de pandas de valores verdaderos y falsos.
# df['Mortgage Name']=="30 Year" Lo que se obtiene acá es una serie repleta de valores True y False.
# Los True representan aquellos registros con contenido "30 Year" y los False aquellos
# con contenido distinto a "30 Year"
mortgage_filter = df['Mortgage Name']=='30 Year'
mortgage_filter.head()

0    True
1    True
2    True
3    True
4    True
Name: Mortgage Name, dtype: bool

In [21]:
# Método 1 con corchetes
# Filtra el marco de datos para obtener un marco de datos de solo '30 Year '
df[mortgage_filter]

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.00,1686.42,1000.00,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.10,693.32,396550.67,30 Year,0.03
...,...,...,...,...,...,...,...,...
715,356,10596.54,2147.29,44.15,2103.14,8493.40,30 Year,0.05
716,357,8493.40,2147.29,35.38,2111.91,6381.49,30 Year,0.05
717,358,6381.49,2147.29,26.58,2120.71,4260.78,30 Year,0.05
718,359,4260.78,2147.29,17.75,2129.54,2131.24,30 Year,0.05


In [22]:
# Aproximación 2 usando loc
# Filtre el marco de datos para obtener un marco de datos de hipotecas de solo 30 años
df.loc[mortgage_filter, :]

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.00,1686.42,1000.00,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.10,693.32,396550.67,30 Year,0.03
...,...,...,...,...,...,...,...,...
715,356,10596.54,2147.29,44.15,2103.14,8493.40,30 Year,0.05
716,357,8493.40,2147.29,35.38,2111.91,6381.49,30 Year,0.05
717,358,6381.49,2147.29,26.58,2120.71,4260.78,30 Year,0.05
718,359,4260.78,2147.29,17.75,2129.54,2131.24,30 Year,0.05


In [23]:
# Observa que pareciera que nada ha cambiado.
# Esto se debe a que no actualizamos el marco de datos después de aplicar el filtro.
# La salida anterior es local; ya no podemos usarla ya que en realidad no cambiamos/actualizamos el marco de datos
# Necesitaríamos guardar el código anterior como una variable para usar el marco de datos filtrado en futuras celdas
# de código
df['Mortgage Name'].value_counts()

30 Year    720
15 Year    360
Name: Mortgage Name, dtype: int64

In [24]:
# Filtra el marco de datos para obtener un marco de datos de hipotecas de solo 30 años
# Ten en cuenta que estamos sobrescribiendo df aquí para guardar solo los datos de la hipoteca a 30 años
# Y ahora, solo hay hipotecas a 30 años en la salida cuando ejecutamos .value_counts()
df = df.loc[mortgage_filter, :]
df['Mortgage Name'].value_counts()

30 Year    720
Name: Mortgage Name, dtype: int64

In [25]:
# Filtro por tasa de interés
# Ve si puedes averiguar qué hace el método de recuento de valores utilizando la función de ayuda
df['Interest Rate'].value_counts()

0.03    360
0.05    360
Name: Interest Rate, dtype: int64

In [26]:
# Observa que el filtro produce una serie de pandas de valores verdaderos y falsos.
df['Interest Rate']==0.03

0       True
1       True
2       True
3       True
4       True
       ...  
715    False
716    False
717    False
718    False
719    False
Name: Interest Rate, Length: 720, dtype: bool

In [27]:
interest_filter = df['Interest Rate']==0.03
# df = df.loc[interest_filter, :]
# df['Interest Rate'].value_counts()

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 720 entries, 0 to 719
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Month             720 non-null    int64  
 1   Starting Balance  720 non-null    float64
 2   Repayment         720 non-null    float64
 3   Interest Paid     720 non-null    float64
 4   Principal Paid    720 non-null    float64
 5   New Balance       720 non-null    float64
 6   Mortgage Name     720 non-null    object 
 7   Interest Rate     720 non-null    float64
dtypes: float64(6), int64(1), object(1)
memory usage: 50.6+ KB


In [29]:
df = df.loc[mortgage_filter & interest_filter, :]
df['Interest Rate'].value_counts()

0.03    360
Name: Interest Rate, dtype: int64

## Renombrar y eliminar columnas

In [30]:
# Enfoque 1 sustitución de diccionario mediante el método de cambio de nombre
df = df.rename(columns={'Starting Balance': 'starting_balance',
                        'Interest Paid': 'interest_paid', 
                        'Principal Paid': 'principal_paid'})
# DataFrame after renaming columns
df.head()

Unnamed: 0,Month,starting_balance,Repayment,interest_paid,principal_paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [31]:
# Enfoque 2
# Incluso si quieres cambiar el nombre de una sola columna, debes enumerar el resto de las columnas
df.columns = ['month',
              'starting_balance',
              'repayment',
              'interest_paid',
              'principal_paid',
              'new_balance',
              'mortgage_name',
              'interest_rate']
df.head()

Unnamed: 0,month,starting_balance,repayment,interest_paid,principal_paid,new_balance,mortgage_name,interest_rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [32]:
# También es posible eliminar ciertas columnas de tu dataframe
# Enfoque 1
df = df.drop(columns=['new_balance'])
df.head()

Unnamed: 0,month,starting_balance,repayment,interest_paid,principal_paid,mortgage_name,interest_rate
0,1,400000.0,1686.42,1000.0,686.42,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,30 Year,0.03


In [33]:
# Enfoque 2 usa el comando del
del df['starting_balance']
df.head()

Unnamed: 0,month,repayment,interest_paid,principal_paid,mortgage_name,interest_rate
0,1,1686.42,1000.0,686.42,30 Year,0.03
1,2,1686.42,998.28,688.14,30 Year,0.03
2,3,1686.42,996.56,689.86,30 Year,0.03
3,4,1686.42,994.83,691.59,30 Year,0.03
4,5,1686.42,993.1,693.32,30 Year,0.03


## Identificar datos faltantes

In [34]:
filename = 'https://raw.githubusercontent.com/fralfaro/CodingDojo-DataScience/main/docs/2-Pandas/data/linear.csv'
df = pd.read_csv(filename)
df.head()

Unnamed: 0,x,y
0,0.0,-51.0
1,25.0,-12.0
2,117.58322,134.907414
3,108.922466,134.08518
4,69.887445,


In [35]:
# Hay datos faltantes en la segunda columna (columna 'y')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102 entries, 0 to 101
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   x       102 non-null    float64
 1   y       94 non-null     float64
dtypes: float64(2)
memory usage: 1.7 KB


In [36]:
# Observa que tenemos una serie pandas de valores verdaderos y falsos.
# .isna es una función que reemplaza cada valor existente con False
# y cada valor no existente con True
df['y'].isna().head()

0    False
1    False
2    False
3    False
4     True
Name: y, dtype: bool

In [37]:
y_missing = df['y'].isna() # Acá crearemos un filtro para valores NaN
# Mira las filas que contienen NaN para y
df.loc[y_missing,:]

Unnamed: 0,x,y
4,69.887445,
53,93.14307,
60,95.542388,
62,120.699573,
64,82.657622,
65,105.534175,
92,37.546425,
94,35.914205,


In [38]:
# Para obtener todos los valores NO NULOS en y, podemos utilizar la negación del filtro
~y_missing.head()

0     True
1     True
2     True
3     True
4    False
Name: y, dtype: bool

In [39]:
# Ten en cuenta que podemos usar el operador not (~) para negar el filtro
# cada fila que no tiene nan se devuelve
df.loc[~y_missing,:].head()

Unnamed: 0,x,y
0,0.0,-51.0
1,25.0,-12.0
2,117.58322,134.907414
3,108.922466,134.08518
5,96.839983,114.530638


In [40]:
# El código cuenta el número de valores perdidos
# sum() funciona porque los booleanos son un subtipo de enteros
df['y'].isna().sum()

8

In [41]:
# el código anterior funciona de manera muy similar al código siguiente
True + False + False + True

2

In [42]:
# Puedes eliminar filas enteras si contienen nans 'any' o 'all'
# ten en cuenta que no hay una fila con el índice 4
df.loc[0:10,:].dropna(how = 'any')
#‘any’ : If any NA values are present, drop that row or column.
#‘all’ : If all values are NA, drop that row or column.

Unnamed: 0,x,y
0,0.0,-51.0
1,25.0,-12.0
2,117.58322,134.907414
3,108.922466,134.08518
5,96.839983,114.530638
6,51.77594,31.376437
7,35.016737,8.764634
8,79.457646,73.285341
9,45.344909,18.859865
10,77.767132,72.946609


In [45]:
import pandas as pd
filename = 'data/linear.csv'
df = pd.read_csv(filename)
df.head()

Unnamed: 0,x,y
0,0.0,-51.0
1,25.0,-12.0
2,117.58322,134.907414
3,108.922466,134.08518
4,69.887445,


In [46]:
# Mirando dónde se encuentran los datos faltantes
df.loc[0:10, 'y']

0     -51.000000
1     -12.000000
2     134.907414
3     134.085180
4            NaN
5     114.530638
6      31.376437
7       8.764634
8      73.285341
9      18.859865
10     72.946609
Name: y, dtype: float64

In [47]:
# Opción1: Completar el nan con un cero puede ser una mala idea
# df.loc[0:10, 'y'].fillna(0)
# Opción 2: valor back fill (relleno hacia atrás)
# df.loc[0:10, 'y'].fillna(method='bfill')
# Opción 3: valor forward fill (relleno hacia adelante)
# df.loc[0:10, 'y'].fillna(method='ffill')
# interpolación lineal (relleno de valores)
df = df.loc[0:10, 'y'].interpolate(method = 'linear')
df

0     -51.000000
1     -12.000000
2     134.907414
3     134.085180
4     124.307909
5     114.530638
6      31.376437
7       8.764634
8      73.285341
9      18.859865
10     72.946609
Name: y, dtype: float64

## Conversión a otros tipos de datos

In [48]:
#df.to_numpy()
# Approach 2
df.values

array([-51.        , -12.        , 134.9074137 , 134.0851795 ,
       124.30790855, 114.5306376 ,  31.37643731,   8.76463417,
        73.28534128,  18.85986466,  72.9466086 ])

In [49]:
# Puedes suprimir la salida en un Colab o Jupyter Notebook usando un ;
df.to_dict()

{0: -51.0,
 1: -12.0,
 2: 134.9074137,
 3: 134.0851795,
 4: 124.30790855000001,
 5: 114.5306376,
 6: 31.37643731,
 7: 8.764634165,
 8: 73.28534128,
 9: 18.85986466,
 10: 72.9466086}

## Pandas: Exportar datos

In [50]:
filename = "https://raw.githubusercontent.com/fralfaro/CodingDojo-DataScience/main/docs/2-Pandas/data/mortgages.csv"
df = pd.read_csv(filename)
df.head()

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [51]:
# Filtros/procesado de datos
mortgage_filter = df['Mortgage Name']=='30 Year'
interest_filter = df['Interest Rate']==0.03
df = df.loc[mortgage_filter & interest_filter, :]
df

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.00,1686.42,1000.00,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.10,693.32,396550.67,30 Year,0.03
...,...,...,...,...,...,...,...,...
355,356,8364.12,1686.42,20.91,1665.51,6698.61,30 Year,0.03
356,357,6698.61,1686.42,16.74,1669.68,5028.93,30 Year,0.03
357,358,5028.93,1686.42,12.57,1673.85,3355.08,30 Year,0.03
358,359,3355.08,1686.42,8.38,1678.04,1677.04,30 Year,0.03


In [52]:
# Exportar DataFrame a un archivo csv
df.to_csv(path_or_buf='https://raw.githubusercontent.com/fralfaro/CodingDojo-DataScience/main/docs/2-Pandas/data/processed/oneMortgage.csv',index = False)
# Exportar DataFrame a un archivo de Excel
df.to_excel(excel_writer='https://raw.githubusercontent.com/fralfaro/CodingDojo-DataScience/main/docs/2-Pandas/data/processed/oneMortgage.xlsx',index=False)
# Archivos pueden ser descargados desde Google Drive/Colab

## Pandas: función apply
```.apply()``` permite aplicar una función a todos los elementos de un DataFrame pandas. 

In [53]:
# Ej. Queremos calcular el cuadrado (elevado a  2) de todos 
# los elementos del siguiente DataFrame
df = pd.DataFrame([[1, 2],[3, 4], [5, 6]], columns=['A', 'B'])
df

Unnamed: 0,A,B
0,1,2
1,3,4
2,5,6


In [54]:
# Inciso de funciones. Una función es un conjunto de instrucciones encapsuladas que pueden
# ser llamadas en cualquier momento (como una caja negra)
def suma(a, b):
    return a + b

x = suma(1, 2)
print("El resultado es", x)


def op_mat(a, b):
    x1 = a + b
    x2 = a - b
    x3 = a * b
    x4 = a/b
    return x1, x2, x3, x4

print("Resultado de operaciones matemáticas:",op_mat(1, 2))

El resultado es 3
Resultado de operaciones matemáticas: (3, -1, 2, 0.5)


In [55]:
# Creamos la función pow2 que calcula el cuadrado de un número
def pow2(n): # Función que retorna n elevado a 2
    return n**2

# Ejemplo de uso
pow2(4) # Resultado 16

16

In [56]:
# Aplicaremos esta función pow2 a todos los elementos de
# nuestro dataframe. Para ello, entregamos la función
# pow2 como entrada a .apply
df.apply(pow2)

Unnamed: 0,A,B
0,1,4
1,9,16
2,25,36


## Métodos agregados

- Se aplican a todos los datos de un DataFrame/Serie

In [57]:
# sumar todos los valores en todas las columnas
df.sum()

A     9
B    12
dtype: int64

## Group by

In [58]:
import pandas as pd
df_cities = pd.DataFrame(data = [['Seattle', 1],
                          ['Kirkland', 2],
                          ['Redmond', 3],
                          ['Seattle', 4],
                          ['Kirkland', 5],
                          ['Redmond', 6]], columns = ['key', 'data'])
df_cities

Unnamed: 0,key,data
0,Seattle,1
1,Kirkland,2
2,Redmond,3
3,Seattle,4
4,Kirkland,5
5,Redmond,6


In [59]:
df_cities.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   key     6 non-null      object
 1   data    6 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 224.0+ bytes


In [60]:
# Sumamos todos los valores agrupados por llave 'key'
df_cities.groupby(['key']).sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
Kirkland,7
Redmond,9
Seattle,5


In [61]:
import pandas as pd
filename = "https://raw.githubusercontent.com/fralfaro/CodingDojo-DataScience/main/docs/2-Pandas/data/mortgages.csv"
df = pd.read_csv(filename)
df.head()

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [62]:
df.groupby(['Mortgage Name', 'Interest Rate'])[['Interest Paid', 'Repayment']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Interest Paid,Repayment
Mortgage Name,Interest Rate,Unnamed: 2_level_1,Unnamed: 3_level_1
15 Year,0.03,97217.42,497219.4
15 Year,0.05,169370.43,569370.6
30 Year,0.03,207106.01,607111.2
30 Year,0.05,373017.23,773024.4


## Actividad 2

El fichero [titanic.csv](https://aprendeconalf.es/docencia/python/ejercicios/soluciones/pandas/titanic.csv) contiene información sobre los pasajeros del Titanic. Escribir un programa con los siguientes requisitos:

1. Generar un DataFrame con los datos del fichero.
2. Mostrar por pantalla las dimensiones del DataFrame, el número de datos que contiene, los nombres de sus columnas y filas, los tipos de datos de las columnas, las 10 primeras filas y las 10 últimas filas
3. Mostrar por pantalla los datos del pasajero con identificador 148.
4. Mostrar por pantalla las filas pares del DataFrame.
5. Mostrar por pantalla los nombres de las personas que iban en primera clase ordenadas alfabéticamente.
6. Mostrar por pantalla el porcentaje de personas que sobrevivieron y murieron.
7. Mostrar por pantalla el porcentaje de personas que sobrevivieron en cada clase.
8. Eliminar del DataFrame los pasajeros con edad desconocida.
9. Mostrar por pantalla la edad media de las mujeres que viajaban en cada clase.
10. Añadir una nueva columna booleana para ver si el pasajero era menor de edad o no.
11. Mostrar por pantalla el porcentaje de menores y mayores de edad que sobrevivieron en cada clase.

> **Fuente**: https://aprendeconalf.es/docencia/python/ejercicios/pandas/

In [None]:
# solucion


## Referencias

* [Python Pandas Tutorial: A Complete Introduction for Beginners](https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/)
* [General functions](https://pandas.pydata.org/pandas-docs/stable/reference/general_functions.html)