# Manipulación de datos con Pandas

*Pandas* es un módulo que recoje múltiples herramientas de manipulación y análisis de datos.

## Importar el módulo

Iniciamos con la importación de *pandas*. Es usual hacerlo de la siguiente manera

In [122]:
import pandas as pd

## Tipos de datos

Los tipos de datos principales utilizados en pandas son:

### Series
Arreglo de datos (similar a una lista) donde cada valor tiene una etiqueta, mejor llamado índice o *index*. 

In [123]:
pd.Series([1,2,3,4,5]) # sin índice 

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [124]:
pd.Series([1,2,3,4,5],index=['a','b','c','d','e']) # sin índice 

a    1
b    2
c    3
d    4
e    5
dtype: int64

Además, la Series puede tener un título.

In [125]:
pd.Series([1,2,3,4,5],index=['a','b','c','d','e'],name='Mi Primera Serie') # con índice

a    1
b    2
c    3
d    4
e    5
Name: Mi Primera Serie, dtype: int64

### DataFrame

Equivalente a una tabla. Contiene un arreglo de entradas individuales, cada una con un valor. cada entrada corresponde a una fila (o registro) y una columna. 

In [126]:
pd.DataFrame([1,2,3,4,5])

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


Al igual que las Series, cada registro puede llevar un nombre, al igual que las columnas

In [127]:
pd.DataFrame([1,2,3,4,5],index=['a','b','c','d','e'],columns=['Columna 1'])

Unnamed: 0,Columna 1
a,1
b,2
c,3
d,4
e,5


También se puede decir que un dataframe es un **grupo de Series**: una columna de un DataFrame es una Series.

In [128]:
pd.DataFrame([[1,10],[2,20],[3,30],[4,40],[5,50]],index=['a','b','c','d','e'],columns=['Columna 1','Columna 2'])

Unnamed: 0,Columna 1,Columna 2
a,1,10
b,2,20
c,3,30
d,4,40
e,5,50


## Lectura de archivos con datos

Pandas puede cargar datos desde múltiples formatos, entre los cuales se encuentran:
- csv
- excel
- json
- portapapeles
- html
- sql
- muchos otros.

A continuación cargaremos el archivo "*TRM_2022.csv*"

In [129]:
df = pd.read_csv("TRM_2022.csv",delimiter=",")
df

Unnamed: 0,Año,Fecha (dd/mm/aaaa),TRM,Día del mes,Mes,Id Mes
0,2022,2022-07-31,43003,31,Julio,7
1,2022,2022-07-30,43003,30,Julio,7
2,2022,2022-07-29,437551,29,Julio,7
3,2022,2022-07-28,442075,28,Julio,7
4,2022,2022-07-27,444501,27,Julio,7
...,...,...,...,...,...,...
181,2022,2022-01-31,39826,31,Enero,1
182,2022,2022-01-30,39826,30,Enero,1
183,2022,2022-01-29,39826,29,Enero,1
184,2022,2022-01-28,394404,28,Enero,1


### Modificando el índice

¿Cuál sería una columna adecuada para usar como índice?

R/ La columna de fecha puede ser un índice adecuado si queremos identificar cada registro por el tiempo en el que ocurre, y convertiría a nuestro dataset en un conjunto de series temporales.

Para hacer esto, solo debemos especificar cuál columna va a convertirse en el índice

In [130]:
df = df.set_index("Fecha (dd/mm/aaaa)")
df

Unnamed: 0_level_0,Año,TRM,Día del mes,Mes,Id Mes
Fecha (dd/mm/aaaa),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2022-07-31,2022,43003,31,Julio,7
2022-07-30,2022,43003,30,Julio,7
2022-07-29,2022,437551,29,Julio,7
2022-07-28,2022,442075,28,Julio,7
2022-07-27,2022,444501,27,Julio,7
...,...,...,...,...,...
2022-01-31,2022,39826,31,Enero,1
2022-01-30,2022,39826,30,Enero,1
2022-01-29,2022,39826,29,Enero,1
2022-01-28,2022,394404,28,Enero,1


Y si queremos deshacer esto y volver al índice genérico (número entero incremental iniciando en 0)

In [131]:
df = df.reset_index()
df

Unnamed: 0,Fecha (dd/mm/aaaa),Año,TRM,Día del mes,Mes,Id Mes
0,2022-07-31,2022,43003,31,Julio,7
1,2022-07-30,2022,43003,30,Julio,7
2,2022-07-29,2022,437551,29,Julio,7
3,2022-07-28,2022,442075,28,Julio,7
4,2022-07-27,2022,444501,27,Julio,7
...,...,...,...,...,...,...
181,2022-01-31,2022,39826,31,Enero,1
182,2022-01-30,2022,39826,30,Enero,1
183,2022-01-29,2022,39826,29,Enero,1
184,2022-01-28,2022,394404,28,Enero,1


## Acceso a los datos en un DataFrame

Primero tenemos que entender la estructura de un DataFrame:

![image.png](attachment:image.png)

Tomado de [1]

### Atributos del DataFrame

información sobre los datos

In [132]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 186 entries, 0 to 185
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Fecha (dd/mm/aaaa)  186 non-null    object
 1   Año                 186 non-null    int64 
 2   TRM                 184 non-null    object
 3   Día del mes         186 non-null    int64 
 4   Mes                 186 non-null    object
 5   Id Mes              186 non-null    int64 
dtypes: int64(3), object(3)
memory usage: 8.8+ KB


Podemos notar que el típo de dato de la columna TRM no es numérica. Más adelante resolveremos esto

descripción de las variables numéricas (conteo, promedio, desviación estandar, etc).

In [133]:
df.describe()

Unnamed: 0,Año,Día del mes,Id Mes
count,186.0,186.0,186.0
mean,2022.0,15.962366,4.44086
std,0.0,8.912408,1.773452
min,2022.0,1.0,1.0
25%,2022.0,8.0,3.0
50%,2022.0,16.0,4.0
75%,2022.0,24.0,6.0
max,2022.0,31.0,7.0


Tamaños, dimensiones, índices, columnas, valores

In [134]:
df.shape #filas por columnas

(186, 6)

In [135]:
df.size # número total de datos

1116

In [136]:
df.ndim # número de dimensiones

2

In [137]:
df.index

RangeIndex(start=0, stop=186, step=1)

In [138]:
df.columns

Index(['Fecha (dd/mm/aaaa)', 'Año', 'TRM', 'Día del mes', 'Mes', 'Id Mes'], dtype='object')

In [139]:
df.values

array([['2022-07-31', 2022, '4300,3', 31, 'Julio', 7],
       ['2022-07-30', 2022, '4300,3', 30, 'Julio', 7],
       ['2022-07-29', 2022, '4375,51', 29, 'Julio', 7],
       ...,
       ['2022-01-29', 2022, '3982,6', 29, 'Enero', 1],
       ['2022-01-28', 2022, '3944,04', 28, 'Enero', 1],
       ['2022-01-27', 2022, '3947,83', 27, 'Enero', 1]], dtype=object)

### Columnas

Podemos acceder por nombre de columna

In [140]:
df.TRM

0       4300,3
1       4300,3
2      4375,51
3      4420,75
4      4445,01
        ...   
181     3982,6
182     3982,6
183     3982,6
184    3944,04
185    3947,83
Name: TRM, Length: 186, dtype: object

In [141]:
df['TRM']

0       4300,3
1       4300,3
2      4375,51
3      4420,75
4      4445,01
        ...   
181     3982,6
182     3982,6
183     3982,6
184    3944,04
185    3947,83
Name: TRM, Length: 186, dtype: object

### Valores específicos

Ahora para sacar un dato de una columna y una fila, puedo usar la notación de corchetes, como una lista cualquiera de Python

In [142]:
df['TRM'][0]

'4300,3'

Si volvemos a poner el índice como la columna de la fecha...

In [143]:
df = df.set_index("Fecha (dd/mm/aaaa)")
df['TRM']['2022-07-31']

'4300,3'

### Filas

las principales formas de acceder a cada fila son:
- por índice numérico - iloc

In [144]:
df.iloc[0]

Año              2022
TRM            4300,3
Día del mes        31
Mes             Julio
Id Mes              7
Name: 2022-07-31, dtype: object

- por etiqueta - loc

In [145]:
df.loc["2022-07-31"]

Año              2022
TRM            4300,3
Día del mes        31
Mes             Julio
Id Mes              7
Name: 2022-07-31, dtype: object

### Selección condicional

Esto es útil si queremos seleccionar registros que cumplan con ciertas condiciones (muy similar al funcionamiento de filtros en Excel).

Por ejemplo, si solo quiero los registros cuyo día del mes sea menor a 5 y solo del mes de Mayo

In [146]:
df.loc[(df['Día del mes'] < 5) & (df['Mes'] == 'Mayo')]

Unnamed: 0_level_0,Año,TRM,Día del mes,Mes,Id Mes
Fecha (dd/mm/aaaa),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2022-05-04,2022,401634,4,Mayo,5
2022-05-03,2022,400407,3,Mayo,5
2022-05-02,2022,396627,2,Mayo,5
2022-05-01,2022,396627,1,Mayo,5


notar el uso de un solo & para unir dos preguntas, además del uso de paréntesis para separar las preguntas.

## Limpieza básica y modificación de datos

### Valores faltantes

Valores faltantes en el DataFrame apareceran como *NaN*, que significa *Not a Number*.

vamos a buscar valores faltantes en la columna *TRM*

In [147]:
df[pd.isnull(df['TRM'])]

Unnamed: 0_level_0,Año,TRM,Día del mes,Mes,Id Mes
Fecha (dd/mm/aaaa),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2022-04-28,2022,,28,Abril,4
2022-02-24,2022,,24,Febrero,2


pandas incluye funciones para lidiar con los valores faltantes:

- fillna(*reemplazo*): reemplaza los NaN con el valor indicado en *reemplazo*
- dropna(): elimina los registros (filas) que contengan elementos vacíos

Vamos a eliminar los registros incompletos

In [148]:
df = df.dropna()
# luego verificamos que queden eliminados
df[pd.isnull(df['TRM'])]

Unnamed: 0_level_0,Año,TRM,Día del mes,Mes,Id Mes
Fecha (dd/mm/aaaa),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1


### Cambio de tipos de datos

En este ejemplo, el valor de TRM no fue convertido a número float, por lo cual debemos hacer la conversión manualmente.

Para esto usaremos *.astype('float')*, aunque con precaución, ya que puede ocurrir un error en el proceso

In [149]:
try:
    df['TRM'].astype('float')
except Exception as e:
    print(e)

could not convert string to float: '4300,3'


astype no reconoce las comas como caracter decimal, por lo que debemos cambiar los caracteres ',' por '.'

Para esto podríamos usar un ciclo for, aunque esta forma es mucho más eficiente:

In [152]:
df['TRM'] = df['TRM'].str.replace(",",".")
df['TRM']

Fecha (dd/mm/aaaa)
2022-07-31     4300.3
2022-07-30     4300.3
2022-07-29    4375.51
2022-07-28    4420.75
2022-07-27    4445.01
               ...   
2022-01-31     3982.6
2022-01-30     3982.6
2022-01-29     3982.6
2022-01-28    3944.04
2022-01-27    3947.83
Name: TRM, Length: 184, dtype: object

Volvamos a intentar...

In [154]:
try:
    df['TRM'] = df['TRM'].astype('float')
except Exception as e:
    print(e)
df['TRM']

Fecha (dd/mm/aaaa)
2022-07-31    4300.30
2022-07-30    4300.30
2022-07-29    4375.51
2022-07-28    4420.75
2022-07-27    4445.01
               ...   
2022-01-31    3982.60
2022-01-30    3982.60
2022-01-29    3982.60
2022-01-28    3944.04
2022-01-27    3947.83
Name: TRM, Length: 184, dtype: float64

### String a fecha (datetime)

Notemos que la fecha, que en este momento es el índice, es de tipo "object", por lo que no se considera como fecha.

In [162]:
df.index

Index(['2022-07-31', '2022-07-30', '2022-07-29', '2022-07-28', '2022-07-27',
       '2022-07-26', '2022-07-25', '2022-07-24', '2022-07-23', '2022-07-22',
       ...
       '2022-02-05', '2022-02-04', '2022-02-03', '2022-02-02', '2022-02-01',
       '2022-01-31', '2022-01-30', '2022-01-29', '2022-01-28', '2022-01-27'],
      dtype='object', name='Fecha (dd/mm/aaaa)', length=184)

In [166]:
df.index = pd.to_datetime(df.index)
df.index

DatetimeIndex(['2022-07-31', '2022-07-30', '2022-07-29', '2022-07-28',
               '2022-07-27', '2022-07-26', '2022-07-25', '2022-07-24',
               '2022-07-23', '2022-07-22',
               ...
               '2022-02-05', '2022-02-04', '2022-02-03', '2022-02-02',
               '2022-02-01', '2022-01-31', '2022-01-30', '2022-01-29',
               '2022-01-28', '2022-01-27'],
              dtype='datetime64[ns]', name='Fecha (dd/mm/aaaa)', length=184, freq=None)

Ahora con el índice como fecha (datetime), se puede acceder a la información con base en consultas relacionadas al tiempo.


In [174]:
print(df.index.year[0],df.index.month[0],df.index.day[0])

2022 7 31


### Reemplazar valores

podemos usar la función *replace()*, la cual recibe un diccionario con parejas clave:valor como elemento nuevo:elemento a cambiar.

Por ejemplo, vamos a reemplazar el nombre del mes a un String en inglés.

In [155]:
traductor = {
    'Enero':'Jan',
    'Febrero':'Feb',
    'Marzo':'Mar',
    'Abril':'Apr',
    'Mayo':'May',
    'Junio':'Jun',
    'Julio':'Jul'
}

df['Mes'] = df['Mes'].replace(traductor)
df

Unnamed: 0_level_0,Año,TRM,Día del mes,Mes,Id Mes
Fecha (dd/mm/aaaa),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2022-07-31,2022,4300.30,31,Jul,7
2022-07-30,2022,4300.30,30,Jul,7
2022-07-29,2022,4375.51,29,Jul,7
2022-07-28,2022,4420.75,28,Jul,7
2022-07-27,2022,4445.01,27,Jul,7
...,...,...,...,...,...
2022-01-31,2022,3982.60,31,Jan,1
2022-01-30,2022,3982.60,30,Jan,1
2022-01-29,2022,3982.60,29,Jan,1
2022-01-28,2022,3944.04,28,Jan,1


## Algunas medidas estadísticas

Obtener el promedio de la TRM por mes

In [176]:
# df.loc['TRM'][df['Mes'].describe()]
# df

# Referencias

[1] https://aprendepython.es/pypi/datascience/pandas/