# Estructuras de datos Pandas: Series 

- Permite almacenar elementos en un arreglo **unidimensional**. Cada elemento puede esta asociado a un índice el cual puede o no ser definido
- Sintáxis más común

```python
s = pd.Series(data, index=index)
```
donde ```data``` representa un conjunto unidimensional de elementos e ```index``` una lista del mismo largo de ```data``` que representa los índices
- ```data``` puede ser tanto
    - Diccionarios (llaves se transforman en índices y valores en datos)
    - Arreglos n-dimensionales (listas, tuplas o numpy arrays)
    - Valores escalares (ej. 5)

Fuente: https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

In [1]:
pip install pandas

Defaulting to user installation because normal site-packages is not writeableNote: you may need to restart the kernel to use updated packages.



In [2]:
import pandas as pd

x = pd.Series((1+5j,1,'a'))
x

0    (1+5j)
1         1
2         a
dtype: object

## Estructuras de datos Pandas: Dataframes

df = pd.DataFrame(data, index=index, columns=columns)
donde ```data``` representa un conjunto unidimensional de elementos e ```index``` y ```columns``` una lista del mismo largo de ```data``` que representa los índices y las etiquetas de las columnas respectivamente.
- ```data``` puede ser tanto
    - Diccionario de arreglos 1-dimensionales, listas, diccionarios o series
    - Arreglos numpy de dos dimensiones
    - Arreglos n-dimensionales
    - Series
    - Otros dataframe

In [6]:
dicc={"equipos":["Alianza Lima", "Real Madrid"],
      "pais": ["Peru","España"]}

df=pd.DataFrame(dicc)
df

Unnamed: 0,equipos,pais
0,Alianza Lima,Peru
1,Real Madrid,España


# Pandas para lectura de datos

- Pandas permite una lectura sencilla con múltiples tipos de datos (Revisar: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html para distintos tipos de archivos).
- Ejemplo

In [10]:
# Para archivos excel, instalación de biblioteca openpyxl
!pip install openpyxl

Defaulting to user installation because normal site-packages is not writeable


In [12]:
df = pd.read_excel("data/bostonHousing1978.xlsx")
df

Unnamed: 0,RM,LSTAT,PTRATIO,target
0,6.575,4.98,15.3,24.0
1,6.421,9.14,17.8,21.6
2,7.185,4.03,17.8,34.7
3,6.998,2.94,18.7,33.4
4,7.147,5.33,18.7,36.2
...,...,...,...,...
501,6.593,9.67,21.0,22.4
502,6.120,9.08,21.0,20.6
503,6.976,5.64,21.0,23.9
504,6.794,6.48,21.0,22.0


# Pandas: Operaciones básicas

In [13]:
# Seleccione el número N superior de registros (default = 5)
df.head()

Unnamed: 0,RM,LSTAT,PTRATIO,target
0,6.575,4.98,15.3,24.0
1,6.421,9.14,17.8,21.6
2,7.185,4.03,17.8,34.7
3,6.998,2.94,18.7,33.4
4,7.147,5.33,18.7,36.2


In [14]:
# Seleccione el número N inferior de registros (default = 5)
df.tail()

Unnamed: 0,RM,LSTAT,PTRATIO,target
501,6.593,9.67,21.0,22.4
502,6.12,9.08,21.0,20.6
503,6.976,5.64,21.0,23.9
504,6.794,6.48,21.0,22.0
505,6.03,7.88,21.0,11.9


In [15]:
# Verifica los tipos de datos de la columna usando el atributo dtypes
df.dtypes
#ojo: El diccionario: tabla cuantas columnas tiene y de q tipo es cada una de las columnas 
#diccionario nos dice tiene 4 columnas y q RM es entero, pero resulto ser flotante
#debemos verificar lo que nos dice el diccionario 

RM         float64
LSTAT      float64
PTRATIO    float64
target     float64
dtype: object

In [16]:
# Use el atributo shape para obtener el número de filas y columnas en tu marco de datos
df.shape

(506, 4)

In [17]:
# El método info da a la columna tipos de datos + el número de valores no nulos
# Ten esto en cuenta en caso de que alguna vez quieras verificar si hay valores perdidos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   RM       506 non-null    float64
 1   LSTAT    506 non-null    float64
 2   PTRATIO  506 non-null    float64
 3   target   506 non-null    float64
dtypes: float64(4)
memory usage: 15.9 KB


# Pandas: Rebanar (slice)

In [18]:
# Seleccionar una columna usando llaves dobles
df[['RM']].head()

Unnamed: 0,RM
0,6.575
1,6.421
2,7.185
3,6.998
4,7.147


In [19]:
# Seleccionar múltiple columnas usando llaves dobles
df[['RM','LSTAT']].head()

Unnamed: 0,RM,LSTAT
0,6.575,4.98
1,6.421,9.14
2,7.185,4.03
3,6.998,2.94
4,7.147,5.33


In [20]:
# Selecciona una columna usando llaves simples
# Esto produce una serie pandas que es una matriz de una dimensión de datos indexados
df['RM'].head()

0    6.575
1    6.421
2    7.185
3    6.998
4    7.147
Name: RM, dtype: float64

In [None]:
# Ten en cuenta que no puedes seleccionar columnas múltiples usando llaves simples
# Error de llave (KeyError)
df['LSTAT','RM']

In [22]:
# Obtención de un subconjunto de los datos (similar a listas)
df['RM'][0:10]

0    6.575
1    6.421
2    7.185
3    6.998
4    7.147
5    6.430
6    6.012
7    6.172
8    5.631
9    6.004
Name: RM, dtype: float64

In [23]:
# Seleccionar columna usando notación de puntos
# Esto no es recomendable
df.RM.head()

0    6.575
1    6.421
2    7.185
3    6.998
4    7.147
Name: RM, dtype: float64

# Pandas: Filtrado

In [24]:
filename = "data/mortgages.csv"
df = pd.read_csv(filename)
df.head()

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1080 entries, 0 to 1079
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Month             1080 non-null   int64  
 1   Starting Balance  1080 non-null   float64
 2   Repayment         1080 non-null   float64
 3   Interest Paid     1080 non-null   float64
 4   Principal Paid    1080 non-null   float64
 5   New Balance       1080 non-null   float64
 6   Mortgage Name     1080 non-null   object 
 7   Interest Rate     1080 non-null   float64
dtypes: float64(6), int64(1), object(1)
memory usage: 67.6+ KB


In [27]:
# Comencemos primero mirando los valores contenidos en la columna Nombre de la hipoteca
# Además, te animo a buscar qué hace el método value_counts usando la función de ayuda de Python
df['Mortgage Name'].value_counts()

Mortgage Name
30 Year    720
15 Year    360
Name: count, dtype: int64

In [28]:
df['Interest Rate'].value_counts()

Interest Rate
0.03    540
0.05    540
Name: count, dtype: int64

In [37]:
# Observa que el filtro produce una serie de pandas de valores verdaderos y falsos.
mortgage_filter = df['Mortgage Name']=='30 Year'
interest_filter = df['Interest Rate']==0.03

In [38]:
# Método 1 con corchetes
# Filtra el marco de datos para obtener un marco de datos de solo '30 años' e interes de 0.3%
df2=df[mortgage_filter & interest_filter]
df2

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.00,1686.42,1000.00,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.10,693.32,396550.67,30 Year,0.03
...,...,...,...,...,...,...,...,...
355,356,8364.12,1686.42,20.91,1665.51,6698.61,30 Year,0.03
356,357,6698.61,1686.42,16.74,1669.68,5028.93,30 Year,0.03
357,358,5028.93,1686.42,12.57,1673.85,3355.08,30 Year,0.03
358,359,3355.08,1686.42,8.38,1678.04,1677.04,30 Year,0.03


In [39]:
# Aproximación 2 usando loc
# Filtre el marco de datos para obtener un marco de datos de hipotecas de solo 30 años
df.loc[mortgage_filter, :].head()

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.0,1686.42,1000.0,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.1,693.32,396550.67,30 Year,0.03


In [42]:
# Observa que pareciera que nada ha cambiado.
# Esto se debe a que no actualizamos el marco de datos después de aplicar el filtro.
# La salida anterior es local; ya no podemos usarla ya que en realidad no cambiamos/actualizamos el marco de datos
# Necesitaríamos guardar el código anterior como una variable para usar el marco de datos filtrado en futuras celdas
# de código
df['Mortgage Name'].value_counts()

Mortgage Name
30 Year    720
15 Year    360
Name: count, dtype: int64

In [None]:
# Filtra el marco de datos para obtener un marco de datos de hipotecas de solo 30 años
# Ten en cuenta que estamos sobrescribiendo df aquí para guardar solo los datos de la hipoteca a 30 años
# Y ahora, solo hay hipotecas a 30 años en la salida cuando ejecutamos .value_counts()

In [43]:
df = df.loc[mortgage_filter, :]
df['Mortgage Name'].value_counts()

Mortgage Name
30 Year    720
Name: count, dtype: int64

In [44]:
# Filtro por tasa de interés
# Ve si puedes averiguar qué hace el método de recuento de valores utilizando la función de ayuda
df['Interest Rate'].value_counts()

Interest Rate
0.03    360
0.05    360
Name: count, dtype: int64

In [45]:
# Observa que el filtro produce una serie de pandas de valores verdaderos y falsos.
df['Interest Rate'] == 0.03

0       True
1       True
2       True
3       True
4       True
       ...  
715    False
716    False
717    False
718    False
719    False
Name: Interest Rate, Length: 720, dtype: bool

In [46]:
interest_filter = df['Interest Rate'] == 0.03
df = df.loc[interest_filter, :]
df['Interest Rate'].value_counts()

Interest Rate
0.03    360
Name: count, dtype: int64

In [48]:
df=df.loc[mortgage_filter & interest_filter, :]
df

Unnamed: 0,Month,Starting Balance,Repayment,Interest Paid,Principal Paid,New Balance,Mortgage Name,Interest Rate
0,1,400000.00,1686.42,1000.00,686.42,399313.58,30 Year,0.03
1,2,399313.58,1686.42,998.28,688.14,398625.44,30 Year,0.03
2,3,398625.44,1686.42,996.56,689.86,397935.58,30 Year,0.03
3,4,397935.58,1686.42,994.83,691.59,397243.99,30 Year,0.03
4,5,397243.99,1686.42,993.10,693.32,396550.67,30 Year,0.03
...,...,...,...,...,...,...,...,...
355,356,8364.12,1686.42,20.91,1665.51,6698.61,30 Year,0.03
356,357,6698.61,1686.42,16.74,1669.68,5028.93,30 Year,0.03
357,358,5028.93,1686.42,12.57,1673.85,3355.08,30 Year,0.03
358,359,3355.08,1686.42,8.38,1678.04,1677.04,30 Year,0.03


# Pandas: Renombrar y eliminar columnas

In [None]:
#Este es un mensaje nuevo 