# Clase 4: Pandas Avanzado
En esta clase estudiaremos funciones de pandas y métodos de los DataFrames y Series que permitirán un manejo más eficaz de las bases de datos.

## Unión de bases
Existen cuatro formas básicas (universales) de unir (join) bases de datos.
1. inner
2. left
3. right
4. outer

Aunque hay otras formas de unir bases de datos, a través de pegues horizontales o verticales. Estos otros métodos son más eficientes si los datos están ordenados
1. [merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html): une utilizando una(s) columna(s) ó el índice en común 
2. [join](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html): merge usando el índice por la izquierda
3. [concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html): pega nuevas filas o columnas según se especifique
4. [append](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html): concat con axis=0 y join='outer', es decir nuevas filas

In [6]:
import pandas as pd
import numpy as np

In [7]:
#importe encuesta1
#importe encuesta2  /encuesta_hogares1.csv
encuesta1=pd.read_csv('/encuesta_hogares1.csv')
encuesta2=pd.read_csv('/encuesta_hogares2.csv')


In [8]:
encuesta1.head(5)


Unnamed: 0,DIRECTORIO,HOGAR_NUMERO,PERSONA_NUMERO,edad,sexo
0,36228,1,2,53,2
1,36252,1,2,64,2
2,36281,1,2,88,2
3,36297,1,2,25,2
4,36313,1,1,66,2


In [9]:
encuesta2.head(5)

Unnamed: 0,DIRECTORIO,HOGAR_NUMERO,PERSONA_NUMERO,edad,sexo
0,43678,1,1,40,2
1,43709,1,4,24,2
2,43721,1,1,42,1
3,43764,1,1,36,1
4,43908,1,1,48,1


In [10]:
 # Haga concat, Jugar con axis, el índice
encuesta=pd.concat([encuesta1,encuesta2])
print(encuesta1.shape)
print(encuesta2.shape)
print(encuesta.shape)

(250, 5)
(250, 5)
(500, 5)


In [11]:
encuesta.head(5)

Unnamed: 0,DIRECTORIO,HOGAR_NUMERO,PERSONA_NUMERO,edad,sexo
0,36228,1,2,53,2
1,36252,1,2,64,2
2,36281,1,2,88,2
3,36297,1,2,25,2
4,36313,1,1,66,2


In [12]:
encuesta.tail(5)

Unnamed: 0,DIRECTORIO,HOGAR_NUMERO,PERSONA_NUMERO,edad,sexo
245,52877,1,1,28,1
246,52914,1,1,27,1
247,52920,1,1,37,1
248,52940,1,1,32,2
249,53216,1,1,50,2


In [13]:
encuesta.reset_index(inplace=True)

In [14]:
encuesta.tail(5)

Unnamed: 0,index,DIRECTORIO,HOGAR_NUMERO,PERSONA_NUMERO,edad,sexo
495,245,52877,1,1,28,1
496,246,52914,1,1,27,1
497,247,52920,1,1,37,1
498,248,52940,1,1,32,2
499,249,53216,1,1,50,2


In [15]:
 # Replique el resultado usando append
encuesta=encuesta1.append(encuesta2 ).reset_index()

In [16]:
encuesta.tail(5)

Unnamed: 0,index,DIRECTORIO,HOGAR_NUMERO,PERSONA_NUMERO,edad,sexo
495,245,52877,1,1,28,1
496,246,52914,1,1,27,1
497,247,52920,1,1,37,1
498,248,52940,1,1,32,2
499,249,53216,1,1,50,2


In [17]:
 encuesta.sort_values(by=['HOGAR_NUMERO','PERSONA_NUMERO','edad'])

Unnamed: 0,index,DIRECTORIO,HOGAR_NUMERO,PERSONA_NUMERO,edad,sexo
14,14,36541,1,1,19,1
87,87,38484,1,1,21,2
306,56,45207,1,1,21,2
93,93,38585,1,1,22,1
362,112,47212,1,1,22,1
...,...,...,...,...,...,...
315,65,45405,1,6,34,1
348,98,46738,1,6,63,1
391,141,48117,1,8,73,1
228,228,42461,2,1,36,1


In [18]:
#Ordene la base usando el número del hogar y luego el número de la persona, y su edad

In [21]:
# Explore la base de accidentes
#importe la hoja parteA de info_accidentes.xlsx
#importe la hoja parteB de info_accidentes.xlsx
accidentes1=pd.read_excel('/info_accidentes.xlsx',sheet_name='parteA')
accidentes2=pd.read_excel('/info_accidentes.xlsx',sheet_name='parteB')


In [22]:
accidentes1.head(3)

Unnamed: 0,Fecha,GravedadNombre,ClaseNombre,ChoqueNombre,ObjetoFijoCodigo,ObjetoFijoNombre,OtraClase,NombreOtraClase,Latitud,Longitud,Direccion
0,01/13/2016 12:00:00 AM,Con Heridos,Choque,Vehiculo,,,,,0.0,0.0,KR 101-CL 83 02
1,2016-12-01 00:00:00,Con Heridos,Atropello,,,,,,0.0,0.0,CL 147-KR 7 02
2,01/13/2016 12:00:00 AM,Solo Daños,Choque,Vehiculo,,,,,0.0,0.0,CL 19-KR 5 SE 02


In [23]:
accidentes2.head(3)

Unnamed: 0,Fecha,Direccion,TipoVia1,NumeroVia1,LetraVia1,CardinalVia1,TipoVia2,NumeroVia2,LetraVia2,CardinalVia2,Localidad,HoraOcurrencia,TipoDiseño,TipoTiempo,TotalMuertos,TotalHeridos
0,01/13/2016 12:00:00 AM,KR 101-CL 83 02,KR,101,,,CL,83.0,,,ENGATIVA,12/31/1899 10:30:00 PM,Interseccion,Normal,0,2
1,2016-12-01 00:00:00,CL 147-KR 7 02,CL,147,,,KR,7.0,,,USAQUEN,12/31/1899 03:40:00 PM,Interseccion,Normal,0,1
2,01/13/2016 12:00:00 AM,CL 19-KR 5 SE 02,CL,19,,S,KR,5.0,,E,SAN CRISTOBAL,12/31/1899 07:20:00 AM,Tramo de Via,Normal,0,0


In [24]:
accidentes1.shape

(34931, 11)

In [25]:
accidentes2.shape

(34931, 16)

In [29]:
# Convierta a strings las direcciones y fechas

accidentes1['Direccion']=accidentes1['Direccion'].astype(str)
accidentes2['Direccion']=accidentes2['Direccion'].astype(str)

accidentes1['Fecha']=accidentes1['Fecha'].astype(str)
accidentes2['Fecha']=accidentes2['Fecha'].astype(str)


In [30]:
# use merge
accidentes=pd.merge(accidentes1,accidentes2,on=['Direccion','Fecha'])

# accidentes=pd.merge(accidentes1,accidentes2,letf_on=['Direccion','Fecha'])
# accidentes=pd.merge(accidentes1,accidentes2,letf_index=True)

In [28]:
accidentes.shape

(35423, 25)

## Agrupamiento

Para agrupar se utiliza el comando [groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html). 

In [None]:
 # Borre accidentes
 #cargue el csv de accidentes

del accidentes
accidentes=pd.read_csv('info_accidentes.csv')

In [None]:
accidentes=pd.read_csv('info_accidentes.csv')

In [None]:
 # Vea las columnas
accidentes.columns

In [None]:
 # explore la base manualmente
accidentes.head()

In [None]:
 # agrupe por localidad y sume
accidentes.groupby('Localidad').sum()


In [None]:
 # Muestre el número de heridos y muertos por localidad
accidentes.groupby('Localidad')['TotalMuertos','TotalHeridos'].sum()

In [None]:
 # Muestre el número de accidentes por Tipo de Diseño
accidentes.groupby('TipoDiseño').size()

In [None]:
 # Muestre la suma de muertos y heridos por localidad y tipo de diseño 
accidentes.groupby(['Localidad','TipoDiseño'])['TotalMuertos','TotalHeridos'].sum()
   

In [None]:
 # Muestre la suma y la desviación estándar de muertos y heridos por localidad y tipo de diseño 
accidentes.groupby(['Localidad','TipoDiseño'])['TotalMuertos','TotalHeridos'].agg(['sum','std'])


## Manipulación y Exploración de datos
1. Use .apply por columnas para encontrar suma de la
1. Use .apply por filas, sume heridos y muertos
1. Vea los tipos de cada columna
2. Cambie el tipo de NumeroVia2 a string
3. Cambie Fecha a formato datetime
4. Construya una columna que represente el mes del accidente
5. Construya una columna que represente el día de la semana del accidente


In [None]:
 #Explore los tipos de las columnas
accidentes.dtypes

In [None]:
#Convierta NumeroVia2 a string
accidentes['NumeroVia2']=accidentes['NumeroVia2'].astype(str)

In [None]:
accidentes.Fecha.head()

In [None]:
#Convierta fecha a datetime
accidentes.Fecha=pd.to_datetime(accidentes.Fecha)


In [None]:
accidentes.Fecha.head()

In [None]:
# Extraiga el mes y el tipo de día, y guardelas en nuevas columnas
# .dt abreviatura  datetime
# .cat  abreviatura categorico
# .str abreviatura  string 

accidentes['Mes']=accidentes.Fecha.dt.month_name()
accidentes['Dia']=accidentes.Fecha.dt.day_name()


In [None]:
accidentes.head(1)

6. ¿Cuántos accidentes hubo por mes? ¿Cuántos muertos y heridos?
7. ¿Cuántos accidentes hubo por día de la semana? ¿Cuántos muertos y heridos?
7. ¿Cuántos accidentes hubo por día de la semana proporcionalmente? ¿Cuántos muertos y heridos?
7. Sin usar Groupby, encuentre el cuantos accidentes hubo por día de la semana en cada mes
8. Construya las columnas que representen la dummy de día de la semana
9. Construya una nueva base que tenga los meses en las columnas, los días en las filas y en cada entrada de la base el Total de heridos
9. Construya la función de coeficiente de variación
9. Construya una nueva base que tenga los meses en las columnas, los días en las filas y entradas que tengan el Total de heridos y muertos, su coeficiente de variación y desviación estándar.

In [None]:
accidentes.groupby('Mes').size()

In [None]:
# ¿Cuántos accidentes hubo por mes? ¿Cuántos muertos y heridos?
accidentes.groupby('Mes')['TotalMuertos','TotalHeridos'].sum()

In [None]:
(accidentes.groupby('Mes')['TotalMuertos','TotalHeridos'].sum()).sort_values('TotalMuertos',ascending=False)

In [None]:
# ¿Cuántos accidentes hubo por día de la semana? ¿Cuántos muertos y heridos?
accidentes.groupby('Dia')['TotalMuertos','TotalHeridos'].sum()

In [None]:
accidentes.groupby('Dia').size()

In [None]:
accidentes.Dia.value_counts()

In [None]:
# ¿Cuántos accidentes hubo por día de la semana proporcionalmente? ¿Cuántos muertos y heridos?
accidentes.Dia.value_counts(normalize =True)


In [None]:
#Sin usar Groupby, encuentre el cuantos accidentes hubo por día de la semana en cada mes


In [None]:
pd.crosstab(accidentes.Dia,accidentes.Mes)

In [None]:
#Construya las columnas que representen la dummy de día de la semana
accidentes_dia=pd.get_dummies(accidentes,columns=['Dia'])
accidentes_dia.head()


In [None]:
#Construya una nueva base que tenga los meses en las columnas, los días en las filas y en cada entrada de la 
#base el Total de heridos

mes_dia_heridos=pd.pivot_table(accidentes,index=['Dia'],columns=['Mes'],values ='TotalHeridos', aggfunc=sum)


In [None]:
mes_dia_heridos

In [None]:
#Construya la función de coeficiente de variación


In [None]:
#Construya una nueva base que tenga los meses en las columnas, los días en las filas y entradas que tengan el Total 
#de heridos y muertos, su coeficiente de variación y desviación estándar




In [None]:
def coef_var(vector):
    media=abs(np.mean(vector))
    desv=np.std(vector)
    return(desv/media)

In [None]:
mes_dia_heridos_muestos=pd.pivot_table(accidentes,index=['Dia'],columns=['Mes'],values =['TotalHeridos','TotalMuertos']
                                       , aggfunc=[sum,coef_var,np.std])

In [None]:
mes_dia_heridos_muestos

14. Construya en la base accidentes la columna que indique si es fin de semana o no.
15. Muestre el número de accidentes por si fue en fin de semana, tipo de tiempo y Gravedad del accidente
15. Muestre el número de muertos cada 100 habitantes por si fue en fin de semana, tipo de tiempo y Gravedad del accidente
17. Ordene la base por mes, día de la semana, número de heridos y número de muertos

In [None]:
accidentes['fds']=((accidentes.Dia=='Saturday')|(accidentes.Dia=='Sunday') )

In [None]:
accidentes.fds

In [None]:
accidentes.columns

In [None]:
accidentes.groupby(['fds','TipoTiempo','GravedadNombre']).size()

In [None]:
accidentes.groupby(['fds','TipoTiempo','GravedadNombre'])['TotalHeridos'].apply(lambda carlos: sum(carlos)*100/7000000)

In [None]:
accidentes.sort_values(by=['fds','TipoTiempo','GravedadNombre'])



## Gráficos rápidos
1. Extraiga las horas de los accidentes (Explore la columna _HoraOcurrencia_)
1. [_.hist()_](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.hist.html)
2. [_.boxplot()_](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.boxplot.html)
3. _.plot()_