# Pandas (Parte 1) 

In [None]:
# from IPython.core.display import display, HTML
# display(HTML("<style>.container { width:90% ! important; }<style>"))

Pandas es la librería más popular de Python para realizar análisis de datos. Esta se especializa en trabajar con ciertos tipos de datos. Los más importantes son:

- Data tabular, como los dataframes (o cualquier base de datos estructurada que tengamos).
- Series
- Series de tiempo

Los objetos de Pandas más importantes son 2: 
- Series
- Dataframes (nuestro enfoque principal). 



Esta librería es un _must_ en el aprendizaje del análisis de datos, machine learning, etc por una serie de motivos:
- Se integra perfectamente con librerías como scikit-learn (machine learning), matplotlib, seaborn y altair (visualización de datos), statsmodels (modelos estadísticos listos para usar), análisis de texto, análisis espacial (geopandas, etc), big data(koalas).

- La gran parte de la comunidad que hace data analysis, y que se apoya mediante foros y demás, usa Pandas. 
- Pandas es muy amplio y tiene muchas funcionalidades. 

### 1. Importar pandas

In [None]:
import pandas as pd

### 2. Hacer disponible nuestro dataframe

- Casi SIEMPRE trabajaremos con dataframes. 


Pero qué es un dataframe? 

- Es una estructura de datos de dos dimensiones (fila-columna). 
- Cada fila es una observación, y cada columna, una variable (atributo, feature, etc).  
- El dataframe sirve para representar bases de datos. 


2 maneras: crearlo por nosotros mismos ó leer datos


<img src="img/db_example.jpeg" width="800">



<br>
</br>

####  Una forma simple de crear dataframes: 

In [None]:
nombres_columnas = ['rural', 'pobreza', 'num_ccpp_urbano', 'desnutricion_cronica',
                   'centros_rural', 'es_juntos']

obs1 = [True, 40, 1, 50, 60, True]
obs2 = [True, 55, 2, 30, 55, True]
obs3 = [False, 25, 3, 40, 40, True]

data = [obs1, obs2, obs3]

ejemplo_df = pd.DataFrame(data = data, columns = nombres_columnas)
ejemplo_df

#### Otra forma de hacerlo 

In [None]:
# Ejemplo cuna más de anterior clase
df = pd.DataFrame()

df['rural'] = [True, True, False, True, False]
df['pobreza'] = [40, 55, 25, 60, 30]
df['num_ccpp_urbano'] =[1,2,3,4,5]
df['desnutricion_cronica'] = [50,30,40,20,45]
df['centros_rural'] = [60,55,40,50,20]
df['es_juntos'] = [True, True, True, True, True]
## df['cuna_o_no'] = [False, True, True, False, True]
df

#### Leyendo la información:  
Los archivos que tenemos pueden estar en distintos formatos: dta, sav, json, csv, txt. Pandas puede leer cualquiera de dichos archivos. 


- read_csv()
- read_json()
- read_html()
- read_sql()
- read_pickle()
- read_stata()
- read_spss()

In [None]:
locacion_datos = "https://otorongo.club/2021/json/ingresos/"

cong = pd.read_json(locacion_datos) ## Hacer esto tiene el mismo efecto que haber guardado el archivo en PC

In [None]:
cong ## Nos da una representación del dataframe cong

In [None]:
cong.head() ## Nos da las primeras observaciones del dataframe

In [None]:
cong.tail() ## Nos da las últimas observaciones del dataframe. 

In [None]:
#Necesita instalar pyreadstat también
## Abrir un archivo spss es muy parecido a abrir un archivo dta 
enc_lgbt = pd.read_spss("./602-Modulo1287.sav")

In [None]:
enc_lgbt.head(5)

In [None]:
mod_2 = pd.read_stata("./enaho01-2022-200.dta",preserve_dtypes = False)

In [None]:
mod_1.head()

#### Explorando la base de datos que tenemos. 

El primer paso de nuestro análisis siempre tiene que ser entender las datos. Para ello seguimos los siguientes pasos:

In [None]:
cong.info()  ## Obtenemos el nombre de las columnas, si es que hay valores faltantes (missing values)  y el tipo de cada una de las cols 

In [None]:
cong.shape  ### Nos ayuda a ver las dimensiones de nuestra base de datos. 
### en este caso: 3316 candidatos a congresistas/presidentes y 10 variables

In [None]:
cong.describe()

In [None]:
cong.nunique()

In [None]:
nomb_variables = cong.columns  ## Nos da un array con el nombre de las variables que componen la base de datos

In [None]:
for nomb in nomb_variables:
    print(nomb)

In [None]:
cong.describe() ## Da las medidas centrales de las variables numéricas

#### Cómo seleccionar datos

A veces sólo necesitamos entender una parte de todos nuestros datos. Por ejemplo, queremos ver los datos de los partidos políticos:

In [None]:
cong.partido ## 1era forma

In [None]:
cong['partido'] # 2da forma



In [None]:
cong['nombre partido'] = cong['partido']

In [None]:
cong['nombre partido']

In [None]:
## A veces queremos contar los valores únicos de una sola columna

cong['partido'].value_counts()

#### Seleccionando un grupo de columnas 

A veces solo queremos ver un grupo de columnas 

In [None]:
cong.columns

In [None]:
peque_lst = ['nombre', 'dni', 'partido']

In [None]:
cong_small = cong[peque_lst].copy().reset_index()

Un dataframe está compuesto de varias series (cada columna es una serie diferente)

In [None]:
type(cong['nombre'])

In [None]:
type(cong['partido'])

#### Seleccionando un grupo de filas

Para dicha tarea, hay 2 formas de hacerlo: usando el ``` iloc``` o el ```loc ```

##### Utilizando el iloc
El iloc ubica las observaciones que corresponden al índice que le indicamos. 
Recordando nuestra base de congresistas: 

In [None]:
# Agarrando observaciones puntuales

cong.iloc[1]

In [None]:
# Agarrando observaciones puntuales
rows = [10,13,3000]
cong.iloc[rows]

In [None]:
rows = [10,13,3000]
cols = [2,4,6]
cong.iloc[rows, cols]

In [None]:
cong.iloc[:10,:]

Utilizando el ```loc```

El ``` loc``` es una forma de ubicar observaciones que se basa en las etiquetas, tanto de columnas como de filas. 

Vamos a hacer una nueva indexación de la base de congresistas:  

In [None]:
cong_ind = cong.set_index('dni')

In [None]:
cong_ind.head(5)

In [None]:
cong_ind.iloc[0]

In [None]:
## cong_ind.loc[0] Esto sale error! porque no hay un index = 0 , ya que hemos puesto como index a los DNIS. 

In [None]:
cong_ind.loc[27428781]

In [None]:
columnas = ["nombre", "partido", "total_ingreso"]
filas = range(0,6)
cong.loc[filas, columnas]

cong.loc[#[0,1,2,5],
    0:5,
    ['nombre', 'partido', 'total_ingreso']]

In [None]:
cong.loc[:, columnas]

#### Filtrando información

Muchas veces querremos quedarnos con un subconjunto de datos que cumplen cierta condición. Las condiciones tienen que evaluarse a un booleano. Por ejemplo:

In [None]:
condicion = [True] * (len(cong) - 5) + [False] * 5
condicion2 = [True] * 5 + [False] * (len(cong) - 5)
cong[condicion]

In [None]:
cong.loc[condicion2]

In [None]:
cond = cong['total_ingreso'] > 1_000_000

cong[cond]

In [None]:
cond_1 = cong['total_ingreso'] > 100000
cond_2 = cong['partido'] == "FUERZA POPULAR"

cong[cond_1 & cond_2]