<a href="https://colab.research.google.com/github/Vokturz/Curso-Python-BCCh/blob/main/clase4/Clase4_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

<div>
<img src="https://github.com/Vokturz/Curso-Python-BCCh/blob/main/clase4/pandas_dalle3.png?raw=true" width="500"/>
</div>

La librería Pandas se utiliza para el análisis y manipulación de datos. Se basa en estructuras de datos eficientes y proporciona herramientas esenciales para trabajar con datos tabulares (similares a las tablas de bases de datos o hojas de cálculo).

Para inicializarla, basta con importarla dentro de python:
```python
import pandas as pd
```

## Estructuras de Datos

Existen dos estructuras de datos principales en Pandas, ambas basadas en los `arrays` de Python: Series y DataFrame.

### Series

Una Serie es similar a un arreglo unidimensional, pero con etiquetas. Esto último permite acceder a los elementos de una forma muy similar a los diccionarios, sin embargo, a diferencia de estos, una Serie **si** permite elementos duplicados.

In [40]:
,import pandas as pd
# Generamos una serie
serie = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "d"])
print(serie)

# Podemos mirar cuales son los indices
print(serie.index)

a    1
b    2
c    3
d    4
dtype: int64
Index(['a', 'b', 'c', 'd'], dtype='object')


In [32]:
# Podemos generar la serie a partir de un diccionario
un_dict = {"a": 1, "b": 2, "c": 3, "d": 4}
serie = pd.Series(un_dict)
print(serie)
print("---")

# Podemos acceder a un elemento de forma muy similar a un diccionario
print("El valor de a es", serie["a"])


serie["a"] = 0 # Podemos modificar un valor
print("El valor de a es", serie["a"])
type(serie["a"])

a    1
b    2
c    3
d    4
dtype: int64
---
El valor de a es 1
El valor de a es 0


numpy.int64

In [33]:
# Una serie con indices duplicados
serie = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "a"])
print(serie)
print("---")

# En este caso, al pedir el valor de "a" nos mostrará dos valores
print(serie["a"])
type(serie["a"])

a    1
b    2
c    3
a    4
dtype: int64
---
a    1
a    4
dtype: int64


pandas.core.series.Series

### DataFrame
Un DataFrame es como un diccionario de Series. Podemos entenderlo como una tabla de datos donde las columnas son Series que comparten un índice común.


In [120]:
data = {
    'columna1': [1, 2, 3, 4],
    'columna2': ['a', 'b', 'c', 'd']
}

df = pd.DataFrame(data)
print(df)
print('---')

# Podemos asignar indices
df = pd.DataFrame(data, index=["id1", "id2", "id3", "id4"])
print(df)

   columna1 columna2
0         1        a
1         2        b
2         3        c
3         4        d
---
     columna1 columna2
id1         1        a
id2         2        b
id3         3        c
id4         4        d


In [69]:
# Si omitimos el print, en algunas plataformas los DataFrames se muestran como
# una tabla
df

Unnamed: 0,columna1,columna2
id1,1,a
id2,2,b
id3,3,c
id4,4,d


In [70]:
# Podemos acceder a un elemento
columna2 = df["columna2"]
print(columna2)
type(columna2) # Vemos que es una Serie

id1    a
id2    b
id3    c
id4    d
Name: columna2, dtype: object


pandas.core.series.Series

In [71]:
# Podemos agregar una nueva columna
df["columna3"] = [True, True, False ,False]
df

Unnamed: 0,columna1,columna2,columna3
id1,1,a,True
id2,2,b,True
id3,3,c,False
id4,4,d,False


In [72]:
# Podemos asignar una columna como el nuevo indice
df.set_index("columna1")  # Esto retorna el DataFrame modificado

# Si hubieramos querido guardarlo, deberíamos haber usado:
# df = df.set_index("columna1")
# df.set_index("columna1", inplace=True) # si inplace=True no retorna nada

Unnamed: 0_level_0,columna2,columna3
columna1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,a,True
2,b,True
3,c,False
4,d,False


Como mencionamos, los DataFrames (así como las Series) están basados en arrays de NumPy, por lo que podemos usar las mismas operaciones que haríamos sobre ellos.

In [81]:
# Podemos ver que los valores están representados por un array
df.values

array([[1, 'a', True],
       [2, 'b', True],
       [3, 'c', False],
       [4, 'd', False]], dtype=object)

In [83]:
# A la columna1 le sumamos 10
df["columna1"] + 10

id1    11
id2    12
id3    13
id4    14
Name: columna1, dtype: int64

Una propiedad interesante de los arrays es que podemos filtrar según algun valor. Por ejemplo si mi array contiene muchos numeros, podemos filtrar para obtener todos los valores que son mayor a un número:
```python
# valores de un_array que son mayores a N
un_array[un_array > N]
```

Esto mismo se puede utilizar en Pandas!

In [103]:
# Ejemplo con NumPy
import numpy as np
un_array = np.arange(1,21)
print(un_array)
print("---")
print(un_array[un_array > 10])

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]
---
[11 12 13 14 15 16 17 18 19 20]


In [100]:
# Ejemplo con Pandas, las siguientes tres expresiones hacen lo mismo
# Para las últimas dos, es importante que la columna no tenga espacios
df[df["columna1"] > 2]
# df[df.columna1 > 2]
# df.query("columna1 > 2")


Unnamed: 0,columna1,columna2,columna3
id3,3,c,False
id4,4,d,False


In [109]:
# Volvamos a los indicadores mensuales
indicadores_mensuales = {
      "IPC": [0.8, -0.1, 1.1, 0.3, 0.1, -0.2],
      "Tasa de Desempleo": [8.04, 8.37, 8.81, 8.66, 8.52, 8.53],
      "Imacec": [0.2, 5, -2.1, -0.9, -0.8, -0.2]
  }

indice_meses = {0: "Enero",
                1: "Febrero",
                2: "Marzo",
                3: "Abril",
                4: "Mayo",
                5: "Junio"}

df = pd.DataFrame(indicadores_mensuales, index=indice_meses.values())
df

Unnamed: 0,IPC,Tasa de Desempleo,Imacec
Enero,0.8,8.04,0.2
Febrero,-0.1,8.37,5.0
Marzo,1.1,8.81,-2.1
Abril,0.3,8.66,-0.9
Mayo,0.1,8.52,-0.8
Junio,-0.2,8.53,-0.2


In [114]:
# Promedio sobre cada columna, redondeado a 2
df.mean().round(2)

IPC                  0.33
Tasa de Desempleo    8.49
Imacec               0.20
dtype: float64

In [115]:
# Exisiste un método que nos da un análisis estadístico
# descriptivo de forma inmediata
df.describe().round(2)

Unnamed: 0,IPC,Tasa de Desempleo,Imacec
count,6.0,6.0,6.0
mean,0.33,8.49,0.2
std,0.52,0.26,2.48
min,-0.2,8.04,-2.1
25%,-0.05,8.41,-0.88
50%,0.2,8.52,-0.5
75%,0.68,8.63,0.1
max,1.1,8.81,5.0


In [119]:
df.idxmin() # Indice mínimo

IPC                  Junio
Tasa de Desempleo    Enero
Imacec               Marzo
dtype: object

## Cargando archivos
Pandas permite cargar archivos de distintas fuentes, basta con usar la función de Pandas correcta según el tipo de archivo:

```python
# Cargar desde un archivo CSV
df = pd.read_csv('ruta/del/archivo.csv')

# Cargar desde un archivo Excel
# NOTA: Es importante que el Excel tenga un buen formato
df = pd.read_excel('ruta/del/archivo.xlsx')

# Cargar desde un archivo Stata
df = pd.read_excel('ruta/del/archivo.dta')

# Cargar desde un archivo SQL
df = pd.read_excel('ruta/del/archivo.sql')
```

En este caso `ruta/del/archivo` corresponde a la ubicación del archivo dentro de nuestro computador. Sin embargo, podemos también cargar un archivo desde un link:

```python
# Cargar desde un archivo CSV en internet
df = pd.read_csv('https://url_al_archivo_csv')
```

In [135]:
# Ejemplo, datos de población en Chile por Región y Comuna
df = pd.read_csv('https://raw.githubusercontent.com/MinCiencia/Datos-COVID19/master/input/DistribucionDEIS/baseFiles/DEIS_template.csv')
print(df.shape) # Mostrar las dimensiones
# Mostrar las primeras (5) filas
df.head()

(393, 5)


Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion
0,Arica y Parinacota,15.0,Arica,15101.0,247552.0
1,Arica y Parinacota,15.0,Camarones,15102.0,1233.0
2,Arica y Parinacota,15.0,General Lagos,15202.0,810.0
3,Arica y Parinacota,15.0,Putre,15201.0,2515.0
4,Arica y Parinacota,15.0,Desconocido Arica y Parinacota,,


In [160]:
# Tipos de cada columna
# object es cualquier tipo no numerico (lista, tupla, strings, etc)
# en este caso corresponden a strings
df.dtypes

Region            object
Codigo region    float64
Comuna            object
Codigo comuna    float64
Poblacion        float64
dtype: object

In [137]:
# Veamos la cantidad de valores NaN
df.isna().sum()

Region           15
Codigo region    15
Comuna           15
Codigo comuna    47
Poblacion        31
dtype: int64

In [141]:
# En particular, nos interesan los NaN en la columna poblacion
df[df['Poblacion'].isna()]

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion
4,Arica y Parinacota,15.0,Desconocido Arica y Parinacota,,
6,,,,,
14,Tarapaca,1.0,Desconocido Tarapaca,,
16,,,,,
26,Antofagasta,2.0,Desconocido Antofagasta,,
28,,,,,
38,Atacama,3.0,Desconocido Atacama,,
40,,,,,
56,Coquimbo,4.0,Desconocido Coquimbo,,
58,,,,,


In [149]:
df = df.dropna(subset=["Poblacion"]) # Eliminamos los NaN de Población
print(df.shape) # Deberían haber 346 comunas
df["Poblacion"].sum() # ?? No parece ser correcto

(346, 5)


19458310.0

In [150]:
df.head()

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion
0,Arica y Parinacota,15.0,Arica,15101.0,247552.0
1,Arica y Parinacota,15.0,Camarones,15102.0,1233.0
2,Arica y Parinacota,15.0,General Lagos,15202.0,810.0
3,Arica y Parinacota,15.0,Putre,15201.0,2515.0
7,Tarapaca,1.0,Alto Hospicio,1107.0,129999.0


In [151]:
df = df.query("Comuna != 'Total'")
print(df.shape)
df["Poblacion"].sum()

(346, 5)


19458310.0