# Introduccion a Pandas

In [None]:
import pandas as pd

In [None]:
pd.__version__

In [None]:
!pip install pandas

http://pandas.pydata.org/

Pandas es la extensión logica de numpy al mundo del Análisis de datos. 

De forma muy general, Pandas extrae la figura del Dataframe conocida por aquellos que usan R a python.

Un pandas dataframe es una tabla, lo que es una hoja de excel, con filas y columnas.

En pandas cada columna es una Serie que esta definida con un numpy array por debajo.

### Qué puede hacer pandas por ti?

- Cargar datos de diferentes recursos
- Búsqueda de una fila o columna en particular
- Realización de calculos estadísticos
- Processamiento de datos
- Combinar datos de múltiples recursos

# 1. Creación y Carga de Datos
---------------------------------

`Pandas` puede leer archivos de muchos tipos, csv, json, excel entre otros

Para esta seccion aprenderemos a crear un Dataframe de 0 y a leer archivos de diferentes fuentes de información.


<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

### 1.1 Creación de dataframes

A partir de datos almacenados en diccionarios o listas es posible crear dataframes

`pd.Dataframe()`

In [None]:
dicx= {
    "nombre": ["Rick", "Morty"],
    "apellido": ["Sanchez", "Smith"],
    "edad": [60, 14]
    }
df_rick_morty = pd.DataFrame(dicx)

df_rick_morty

In [None]:
lista = [["Rick", "Sanchez", 60],
        ["Morty", "Smith", 14]]

columnas= ["nombre", "apellido", "edad"]

df_rick_morty = pd.DataFrame(lista, columns = columnas)
df_rick_morty

In [None]:
type(df_rick_morty)

### 1.2 Carga de datos a partir de fuentes de información

Pandas soporta múltiples fuentes de información entre los que estan csv , sql, json,excel, etc

Para leer un archivo siempre iniciamos con : `pd.read_` 

In [None]:
## Leyendo data de un "csv"

df = pd.read_csv('./data/primary_results.csv',sep=',')


In [None]:
## Leyendo data de un archivo "excel"

path_ = "./data/fallecidos_covid.xlsx"
df_excel = pd.read_excel(path_, sheet_name='fallecidos_covid')


In [None]:
# head() -> me muestra los 5 primeros registros de mi df
df_excel.head()

# 2. Exploración de la Data
-----------------------------

`shape` nos devuelve el número de filas y columnas

In [None]:
df.shape

In [None]:
# head retorna los primeros 5 resultados del dataframe
df.head()

`head` retorna los primertos 5 resultados contenidos en el dataframe (df)

In [None]:
# tail -> retorna los últimos 5 resultados del df
df.tail()

`tail` retorna los 5 últimos resultados contenidos en el dataframe (df)

In [None]:
df.dtypes

In [None]:
# Describe -> nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc 
# de los datos de las columnas posibles
df.describe()

`dtypes` nos indica el tipo de dato para cada una de las columnas del df

# 3. Seleccionando Filas y columnas 
----------------------------

`describe` nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc de los datos de las columnas posibles

In [None]:
df.head()

# 3. Seleccion
-----------------------------

La columna a la izquierda del state es el index. Un dataframe tiene que tener un index, que es la manera de organizar los datos.

In [1]:
df.index

NameError: name 'df' is not defined

### 3.1 Seleccion de Columnas

In [None]:
df.columns

In [None]:
for c in df.columns:
    print(c)

Seleccionamos una columna mediante '[]' como si el dataframe fuese un diccionario

In [None]:
# Seleccion de una única columna
df['candidate'].head()

In [None]:

df.candidate.head()

In [None]:
# Seleccion de más de una columna
columns = ['state','state_abbreviation']
df[columns].head()

In [None]:
df["state"][2:100]

Tambien podemos seleccionar una columna mediante '.'

In [None]:
df.state.head()

### 3.2 Seleccion de Filas

podemos seleccionar una fila mediante su index.

In [None]:
df.loc[2]

Importante, df.loc selecciona por indice, no por posición. Podemos cambiar el indice a cualquier otra cosa, otra columna o una lista separada, siempre que el nuevo indice tenga la misma longitud que el Dataframe

In [None]:
df2 = df.set_index("county").copy()

In [None]:
df2.head()

In [None]:
df2.index

Esto va a fallar por que df2 no tiene un indice numérico.

In [None]:
df2.loc[0]

Ahora podemos seleccionar por condado

In [None]:
df2.loc["Teton-Sublette"]

Si queremos seleccionar por el numero de fila independientemente del índice, podemos usar `iloc`

In [None]:
df2.iloc[100]

In [None]:
df2.iloc[20:25]

In [None]:
df2 = df2.reset_index(drop=True)

In [None]:
df2.head()

# 4. Filtrando Información
------------------------------

Podemos filtrar un dataframe de la misma forma que filtramos en numpy

In [None]:
df[df['votes']>=590502]

podemos concatenar varias condiciones usando `&`

In [None]:
df[(df.county=="Manhattan") & (df.party=="Democrat")]

alternativamente podemos usar el método `query`

In [None]:
df.query("county=='Manhattan' and party=='Democrat'")

In [None]:
county = 'Manhattan'
df.query("county==@county and party=='Democrat'")

# 5. Procesadamiento de Datos
------------------------------

podemos usar `sort_values` para orderar el dataframe acorde al valor de una columna

In [None]:
df_sorted = df.sort_values(by=["votes","county"], ascending=[False, False])
df_sorted.head()

In [None]:
df.groupby(["state", "party"])

In [None]:
df.groupby(["state", "party"])["votes"].sum()

podemos usar `apply` en una columna para obtener una nueva columna en función de sus valores

In [None]:
# creo una nueva columna a partir de los datos de otra
df['letra_inicial'] = df.state_abbreviation.apply(lambda s: s[0])

In [None]:
df.head()

In [None]:
df.groupby("letra_inicial")["votes"].sum().sort_values()

Podemos unir dos dataframes en funcion de sus columnas comunes usando `merge`

In [None]:
# Descargamos datos de pobreza por condado en US en https://www.ers.usda.gov/data-products/county-level-data-sets/county-level-data-sets-download-data/
df_pobreza = pd.read_csv("./data/PovertyEstimates.csv")

In [None]:
df_pobreza.head()

In [None]:
df = df.merge(df_pobreza, left_on="fips", right_on="FIPStxt")
df.head()

In [None]:
county_votes = df.groupby(["county","party"]).agg({
    "fraction_votes":"mean",
    "PCTPOVALL_2015": "mean"   
   }
)

In [None]:
county_votes

# 6. Exportación de datos
----------------------------------

`Pandas` viene equipado con una amplia gama de opciones para la exportación de información.

podemos escribir a excel, necesitamos instalar el paquete `xlwt`

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [None]:
df.head()

In [None]:
## Expotanción con "encoding" e "index False"

df.to_excel('./out/data_partidos.xlsx',
            sheet_name='data',encoding='utf-8',index=False)

In [None]:
## Exportando a csv

df_excel.to_csv(path, sep='|' ,index=False)


In [None]:
## Exportamos archivo a html

with open('./out/data.html',mode='w') as f:
    f.write(df.to_html())

In [None]:
df.to_csv('./out/data_partidos.csv',sep='|',encoding='utf-8',index=False)

# Ejercicios
---------------------------------------------

1. A partir de la data recien generada "data_partidos.xlsx", debemos generar un archivo que contenda unicamente la información contenida por cada uno de los estados.

In [None]:
## Exportando df a excel
df_excel = pd.read_excel('./out/data_partidos.xlsx',sheet_name='data')