# Procesamiento básico con pandas

## Pandas
Es una herramienta construida sobre Ptyhon para realizar análisis y manipulación de datos de manera sencilla, flexible, rápida y efectiva.

Pandas se basa en 3 clases principales:
pandas.DataFrame (dataframe)
pandas.Series (serie)
pandas.Index (índice)

El dataframe es la clase que contiene a los otras dos:
![alt text](https://media.geeksforgeeks.org/wp-content/cdn-uploads/creating_dataframe1.png) </br>

**Cada columna como tal es una serie, así como cada fila.** </br>
**Los nombres de las columnas, así como los labels de las filas, son índices.**



## Dataset
Para revisar este tema, utilizaremos el dfset del Indice de Desempeño Académico (API) de todas las escuelas de California, basado en el test estandarizado de estudiantes. Este dfset contiene información de todas las escuelas con al menos 100 estudiantes. El formato es el siguiente.

Format </br>
The full population df in apipop are a df frame with 6194 observations on the following 37 variables.
- cds: Unique identifier
- stype: Elementary/Middle/High School
- name: School name (15 characters)
- sname: School name (40 characters)
- snum: School number
- dname: District name
- dnum: District number
- cname: County name
- cnum: County number
- flag: reason for missing df
- pcttest: percentage of students tested
- api00: API in 2000
- api99: API in 1999
- target: target for change in API
- growth: Change in API
- sch.wide: Met school-wide growth target?
- comp.imp: Met Comparable Improvement target
- both: Met both targets
- awards: Eligible for awards program
- meals: Percentage of students eligible for subsidized meals
- ell: `English Language Learners' (percent)
- yr.rnd: Year-round school
- mobility: percentage of students for whom this is the first year at the school
- acs.k3: average class size years K-3
- acs.46: average class size years 4-6
- acs.core: Number of core academic courses
- pct.resp: percent where parental education level is known
- not.hsg: percent parents not high-school graduates
- hsg: percent parents who are high-school graduates
- some.col: percent parents with some college
- col.grad: percent parents with college degree
- grad.sch: percent parents with postgraduate education
- avg.ed: average parental education level
- full: percent fully qualified teachers
- emer: percent teachers with emergency qualifications
- enroll: number of students enrolled
- api.stu: number of students tested.

## Importación de la biblioteca
Importamos pandas. Además importamos numpy para tener operaciones aritméticas disponibles

In [None]:
import pandas as pd
import numpy as np

## Importación del dataset

**Ejercicios:**</br>
1. Leyendo la documentación https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html?highlight=read_excel#pandas.read_excel, leer el archivo apipop.xlsx como dataframe

In [None]:
df = pd.read_excel('apipop.xlsx')
df

## Exploración del dataset
Notando que el dataframe es un objeto, como tal posee atributos, uno de ellos llamado columns nos permite ver los nombres de las columnas

In [None]:
df.columns

**Ejercicios:**</br>
2.Dado que los índices son iterables, reemplaze los "." de los nombres de las columnas por "_". Notar que al asignar una lista al atributo columns, podemos cambiar sus valores. Imprima los nombres de las columnas luego del cambio. **Nota:** el resultado de la última línea de código de cualquier celda siempre se imprime por defecto.

In [None]:
def sinPunto(string):
    return string.replace(".","_")
df.rename(columns=sinPunto,inplace=True)
df.head()

- También podemos ver los índices de las filas

In [None]:
df.index

- Las dimensiones del dataframe

In [None]:
df.shape

- Los tipos de variables de las columnas

In [None]:
df.dtypes

- Explorar cierto número de observaciones al inicio

In [None]:
df.head(10)

- Explorar cierto número de observaciones al final

In [None]:
df.tail(5)

- Describir variables cuantitativas

In [None]:
df.describe()

- Contar valores perdidos por columna

In [None]:
df.isnull().sum()

- Seleccionar por índice

In [None]:
df.loc[:,["name","enroll","api00"]]

- Selección por índice posicional

In [None]:
df.iloc[:,[2,35,11]].head(5)

In [None]:
# Ordenar datos por los valores de alguna columna
sub_df = df.loc[:,["name", "enroll", "api00"]]
sub_df.sort_values(by="api00", ascending=False).head(5)

- Cálculo de estadísticas descriptivas

In [None]:
df["enroll"].mean()

In [None]:
df["enroll"].median()

- Para datos categóricos, visualizar categorías únicas

In [None]:
df["dname"].unique()

- Contar las observaciones de cada categoría

In [None]:
df["dname"].value_counts()

- Filtrar datos por condiciones lógicas


In [None]:
df[df.api00 >= 950]

In [None]:
df[(df["dname"].isin(["Alameda City Unified", "Woodland Joint Unified"]))
               & (df["api00"] > 200)]

## Manipulación del dataset

Lo primero que debemos comprobar en el dataset es que no hay records duplicados.
- Removemos records duplicados usando el método .drop_duplicates()

In [None]:
unq_df = df.drop_duplicates() 
unq_df.shape

**Ejercicio:**
3. Cómo podrías comprobar que el dataframe original tenía o no records duplicados. (Pista: fijate en el numero de filas con el método shape)

In [None]:
# Escribe tu código aquí


- Normalmente, si las columnas son cruciales y tienen valores nulos, removemos esos records (ignoramos flags porque esta casi lleno de valores nulos)

In [None]:
unq_df_clean = unq_df.dropna(subset=unq_df.columns.difference(pd.Index(["flag"])),how="any")
unq_df_clean.head(10)

- Por otro lado ponemos reemplazar los valores nulos por un valor (necesitamos hacer esto para no perder datos y que nuestros modelos funcionen). En este caso reemplazaremos los valores nulos de la columna flag por -1

In [None]:
unq_df.loc[:,"flag"] = unq_df.loc[:,"flag"].fillna(0)
unq_df

**Ejercicios:** </br>
4. Sin embargo, para no arruinar las propiedades estadísticas para nuestro dataset hay estrategias de reemplazo de valores nulos por valores como la media y la mediana. 
Reemplaza los valores nulos de acs_core por la media

In [None]:
#Escribe tu código aquí


In [None]:
unq_df.columns

In [None]:
unq_df.loc[:,"acs_core"].isnull().sum()

- Crear categorías según rangos de valores

In [None]:
api_ranges = pd.cut(df["api00"], 10)
api_ranges

- Conteo de las categorías por rangos de valores

In [None]:
api_ranges.value_counts()

- Tabla cruzada para ver los conteos de observaciones a través de dos variables

In [None]:
pd.crosstab(df["dname"],df["stype"])

- Pivot de tabla

In [None]:
test_df = pd.DataFrame({"a":["a","b","a","b","a","b"],"b":["y","u","v","y","u","v"],"val":[1,2,3,4,5,6]})
test_df

In [None]:
pivot_test_df=pd.pivot(test_df,index="a",columns="b",values="val")
pivot_test_df

- Melt de tabla (es la operación inversa de pivot)

In [None]:
pivot_test_df= pivot_test_df.reset_index()
pivot_test_df

In [None]:
pd.melt(pivot_test_df,id_vars=["a"],value_vars=["u","v","y"],value_name="val").sort_values(by="val").reset_index(drop=True)

**Ejercicio:**
5. Carga la siguiente tabla y consigue trasladar las fechas de las columnas a las filas sin que haya ningún record con valor nulo. (Pista, usa dropna())

In [None]:
ventas_df = pd.read_excel("ventas_para_melt.xlsx")
ventas_df

In [None]:
# Escribe tu código acá


- Agrupar dataframe y agregar valores

In [None]:
sub1_df = df.loc[:, ["name", "dname", "enroll", "api00"]].drop_duplicates(subset=["name","dname"])
sub1_df

- Agregar columnas con la media agrupada por nombre de distrito

In [None]:
gr_sub1_df = sub1_df.groupby("dname").aggregate(np.mean)
gr_sub1_df

**Ejercicio:**</br>
6. Leer la documentación https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html?highlight=agg#pandas.DataFrame.agg y aggregar la columna enroll por máximo y la columna api00 por media

In [None]:
# Escribe tu código aquí


- Merge dataframes (SQL join)

In [None]:
test_df1 = pd.DataFrame({"a" : ["a","b","c","d","b","c"],"b":["e","f","e","g","h","k"],"val":[1,2,3,4,5,6]})
test_df2 = pd.DataFrame({"a" :["a","u","c","d","k","c"],"b":["e","f","e","g","h","k"],"val":[7,8,9,10,11,12]})
test_df1.merge(test_df2,on="a",how="inner")

In [None]:
test_df1.merge(test_df2,on="a",how="left")

In [None]:
test_df1.merge(test_df2,on="a",how="right")

In [None]:
test_df1.merge(test_df2,on="a",how="outer")

**Ejercicios:** </br>
7. Lee la documentación https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html?highlight=merge#pandas.DataFrame.merge y has un "inner" merge entre test_df1 y test_df2, pero considerando la columna a y la columna b simultáneamente.

In [None]:
# Escribe tu código acá


- El siguiente método es importante para volver a juntar todas las partes de un dataframe, luego de que se han realizado las transformacones (que se explican en la siguiente sección). El método que se usa es pd.concat() y tiene las siguientes reglas:
    - Recibe una lista de dataframes y por defecto los concantena uno debajo de otro, alineando los nombres de las columnas
    - Cuando se espcifica el argumento "axis=1", el método concatena los dataframes uno al lado del otro alineando el índice       de las filas
    - Los espacios que quedan luego de realizar la alineación tanto en columnas of filas, dependiendo el caso, se rellenan       con valores nulos (np.nan) 

In [None]:
test_df3 = pd.DataFrame({"a" :["a","u","c","d","k","c","l"],"b":["e","f","e","g","h","k","n"],"val1":[7,8,9,10,11,12,13]})
test_df1_df2_v_df = pd.concat([test_df1,test_df2,test_df3])
test_df1_df2_v_df

In [None]:
test_df1_df2_h_df = pd.concat([test_df1,test_df2,test_df3],axis=1)
test_df1_df2_h_df

## Transformación de variables

- Añadir columnas transformadas con operaciones matemáticas

In [None]:
filter_df1 = unq_df.loc[:,["name","dname","cname","enroll","api00"]]
filter_df1.loc[:,"logenroll"] = filter_df1["enroll"].apply(np.log)
filter_df1.loc[:,"logapi00"] = filter_df1["api00"].apply(np.log)
filter_df1.loc[:,"enroll_p"] = filter_df1["enroll"]**0.5
filter_df1.head(5)

- Transformaciones polinomiales

In [None]:
filter_col_df1 = filter_df1.loc[:,["enroll","api00"]].dropna(how="any")
filter_col_df1.head(5)

In [None]:
# Importemos una libreria que nos facilite este proceso...
from sklearn.preprocessing import PolynomialFeatures

# Definamos el grado del polinomio
poly = PolynomialFeatures(degree=2)
filter_col_poly_df1 = pd.DataFrame(
    poly.fit_transform(filter_col_df1)
) 
filter_col_poly_df1.head(5)

- Escalamiento/Normalización de variables numéricas

In [None]:
filter_col_poly_df1.describe()

In [None]:
from sklearn import preprocessing
filter_col_df1_norm = pd.DataFrame(preprocessing.scale(filter_col_df1))
filter_col_df1_norm.head(5)

In [None]:
filter_col_df1_norm.describe().round(2)

- Binarización de varaibles categóricas


In [None]:
cat_df = filter_df1.loc[filter_df1.loc[:,"cname"].isin(["Los Angeles","San Diego","Santa Clara"]),["cname"]]
cat_df["cname"].value_counts()

In [None]:
dummies_df = pd.get_dummies(cat_df) 
dummies_df.head()

**Ejercicios:**</br>
8. Para correr cualquier modelo de Machine Learning sobre cualquier dataset, todos los valores han tenido que ser numerizados. Get dummies nos permite hacer esto con valores categóricos. Aplica get_dumies() sobre la columna PRODUCTOS del dataframe melt_ventas_df

In [None]:
# Escribe tu código acá
