# Clase 3: Introducción a Pandas

En esta clase estudiaremos _Pandas_, este es el paquete más robusto y famoso en Python para la manipulación de bases de datos.

En Pandas existen tres tipos de estructuras: 

- Series: data en un arreglo 1D, etiquetada, homogénea e inmutable de tamaño
- **Data Frames**: arreglo 2D, tamaño mutable, columnas heterogéneas, etiquetadas
- Panel: arreglo 3D, tamaño mutable.

## Ejercicios clase pasada
1. Aprenda a usar la función _map()_, busque su documentación. Aplicando _map()_ a la lista [8,23,56,86] muestre la lista de divisores de cada número. Para la pregunta 1 corra la celda de la función de ListaDivisores
2. Construya una función que represente el lanzamiento de un dado de 6 caras. Lance el dado (use la función) 100 veces, guarde el resultado en una lista y muestre cuantas veces salió cada número.
3. Escriba una función que construya el [coeficiente de variación](https://es.wikipedia.org/wiki/Coeficiente_de_variaci%C3%B3n) de un vector/lista dado/a.

In [1]:
def ListDivisores(numero):
    lista=[] # Creo un lista vacía a la que le voy a añadir los divisores
    for i in range(numero): # Haga un loop desde 0 hasta el número deseado
        if numero % (i+1)==0: # Si el residuo es cero entonces es múltiplo
            lista.append(i+1) # Hago i+1 y no i porque arranca desde cero y no desde 1. 
    if len(lista)==2: # Si solo hay dos divisores, significa que es el 1 y el número en si, luego es un primo. 
        print('El ' ,numero, ' es un número de primo')
    return(lista)

In [2]:
map_divisores=map(ListDivisores,[8,23,56,86])
for i in map_divisores:
    print(i)

[1, 2, 4, 8]
El  23  es un número de primo
[1, 23]
[1, 2, 4, 7, 8, 14, 28, 56]
[1, 2, 43, 86]


In [3]:
import numpy as np
def dado():
    return(np.random.randint(1,7))
resultado=[]
for i in range(100):
    resultado.append(dado())
print(resultado.count(1))
print(resultado.count(2))
print(resultado.count(3))
print(resultado.count(4))
print(resultado.count(5))
print(resultado.count(6))

11
10
18
18
26
17


In [4]:
def coef_variacion(vector):
    return(np.std(vector)/abs(np.mean(vector)))
coef_variacion([5,15,10,10])

0.3535533905932738

## Creación de DataFrame a partir de un diccionario

In [5]:
import pandas as pd

In [6]:
nombres=['Mateo', 'Julián', 'Juan', 'Carla']
sexo=['F', 'M', 'M', None]
edad=[24,21,25,30]
notas=[4.5, 2, 3.25, 4]

In [7]:
diccionario={'names':nombres, 'sex':sexo, 'age':edad, 'grades':notas}

In [8]:
diccionario

{'names': ['Mateo', 'Julián', 'Juan', 'Carla'],
 'sex': ['F', 'M', 'M', None],
 'age': [24, 21, 25, 30],
 'grades': [4.5, 2, 3.25, 4]}

In [9]:
data=pd.DataFrame(diccionario)

In [10]:
data

Unnamed: 0,names,sex,age,grades
0,Mateo,F,24,4.5
1,Julián,M,21,2.0
2,Juan,M,25,3.25
3,Carla,,30,4.0


### Componentes principales de un DataFrame
1. _index_
2. _columns_
3. _shape_
4. _size_
5. _data.count()_
6. _values_
7. _T_
8. _dtypes_

In [11]:
data.index # Estudio el índice

RangeIndex(start=0, stop=4, step=1)

In [12]:
data.columns # Columnas

Index(['names', 'sex', 'age', 'grades'], dtype='object')

In [13]:
data.shape # Dimensiones

(4, 4)

In [14]:
data.size # Cantidad de datos

16

In [15]:
data.count() # Cantidad de datos no Nulos

names     4
sex       3
age       4
grades    4
dtype: int64

In [16]:
data.values # Lo vuelve np.array

array([['Mateo', 'F', 24, 4.5],
       ['Julián', 'M', 21, 2.0],
       ['Juan', 'M', 25, 3.25],
       ['Carla', None, 30, 4.0]], dtype=object)

In [17]:
data.T # Trasponer

Unnamed: 0,0,1,2,3
names,Mateo,Julián,Juan,Carla
sex,F,M,M,
age,24,21,25,30
grades,4.5,2,3.25,4


In [18]:
data.dtypes

names      object
sex        object
age         int64
grades    float64
dtype: object

### Indexación y Ejes
1. Extracción de columnas
1. _set-index()_
2. _loc_
3. _iloc_
4. _ix_
5. _reset-index()_

In [19]:
data['names'] # Extraiga la columna names 

0     Mateo
1    Julián
2      Juan
3     Carla
Name: names, dtype: object

In [20]:
data.names # Extraiga la colunma names como método

0     Mateo
1    Julián
2      Juan
3     Carla
Name: names, dtype: object

In [21]:
data[data['names']=='Mateo'] # Extraiga la columna cuya variable 'names' es igual a Mateo 

Unnamed: 0,names,sex,age,grades
0,Mateo,F,24,4.5


In [22]:
data.set_index('names', inplace=True) # Ponga la columna names como índice
data

Unnamed: 0_level_0,sex,age,grades
names,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mateo,F,24,4.5
Julián,M,21,2.0
Juan,M,25,3.25
Carla,,30,4.0


In [23]:
print(data.loc['Mateo']) # Extraiga la fila de Mateo usando .loc
print(data.loc[:,'age']) # Extraiga la columna de edad usando .loc
print(data.loc[['Juan', 'Carla'], 'grades']) # Extraiga las notas de Juan y Carla usando .loc

sex         F
age        24
grades    4.5
Name: Mateo, dtype: object
names
Mateo     24
Julián    21
Juan      25
Carla     30
Name: age, dtype: int64
names
Juan     3.25
Carla    4.00
Name: grades, dtype: float64


In [24]:
print(data.iloc[1]) # Extraiga la segunda fila usando .iloc
print(data.iloc[:,[1,2]]) # Extraiga la segunda y tercera columna usando .iloc
print(data.iloc[[0,-1],[1]]) # Extraiga la primera y última fila y segunda columna usando .iloc

sex        M
age       21
grades     2
Name: Julián, dtype: object
        age  grades
names              
Mateo    24    4.50
Julián   21    2.00
Juan     25    3.25
Carla    30    4.00
       age
names     
Mateo   24
Carla   30


In [25]:
print(data.ix[[1,2], 'age']) # Acceda a la segunda y tercera fila y a la edad con ix
print(data.ix[['Mateo', 'Juan'], [0,-1]]) # Extraiga la primera y última columna para Mateo y Juan

names
Julián    21
Juan      25
Name: age, dtype: int64
      sex  grades
names            
Mateo   F    4.50
Juan    M    3.25


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


In [26]:
data.reset_index(inplace=True, drop=False) # Reinicie el índice
data

Unnamed: 0,names,sex,age,grades
0,Mateo,F,24,4.5
1,Julián,M,21,2.0
2,Juan,M,25,3.25
3,Carla,,30,4.0


### Edición de columnas
1. ¿Qué tipo de objeto es una columna?
2. Súmele a la edad 2 años (no guarde el valor, solo imprímalo).
3. Cree una nueva columna, que se llame 'mi_nueva_variable' que sea el número 1 en todas las filas. 
4. Reescale las notas de 0 a 100 en una nueva columna.

In [27]:
type(data.grades)

pandas.core.series.Series

In [28]:
data.age+2 # También vea como usar .add(), .sub(), .mul() y .div()

0    26
1    23
2    27
3    32
Name: age, dtype: int64

In [29]:
data['mi_nueva_variable']=1
data

Unnamed: 0,names,sex,age,grades,mi_nueva_variable
0,Mateo,F,24,4.5,1
1,Julián,M,21,2.0,1
2,Juan,M,25,3.25,1
3,Carla,,30,4.0,1


In [30]:
data['rescaled_grades']=data.grades*100/5
data

Unnamed: 0,names,sex,age,grades,mi_nueva_variable,rescaled_grades
0,Mateo,F,24,4.5,1,90.0
1,Julián,M,21,2.0,1,40.0
2,Juan,M,25,3.25,1,65.0
3,Carla,,30,4.0,1,80.0


### Estadísticas descriptivas
1. _sum()_
1. _min()_
1. _max()_
1. _idxmin()_
1. _idxmax()_
1. _describe()_
1. _mean()_
1. _median()_

Revise axis=0 y axis=1

In [31]:
data.sum()

names                MateoJuliánJuanCarla
age                                   100
grades                              13.75
mi_nueva_variable                       4
rescaled_grades                       275
dtype: object

In [32]:
data.min()

names                Carla
age                     21
grades                   2
mi_nueva_variable        1
rescaled_grades         40
dtype: object

In [33]:
data.max()

names                Mateo
age                     30
grades                 4.5
mi_nueva_variable        1
rescaled_grades         90
dtype: object

In [34]:
data.age.idxmin()

1

In [35]:
data.rescaled_grades.idxmax()

0

In [36]:
data.describe()

Unnamed: 0,age,grades,mi_nueva_variable,rescaled_grades
count,4.0,4.0,4.0,4.0
mean,25.0,3.4375,1.0,68.75
std,3.741657,1.087332,0.0,21.746647
min,21.0,2.0,1.0,40.0
25%,23.25,2.9375,1.0,58.75
50%,24.5,3.625,1.0,72.5
75%,26.25,4.125,1.0,82.5
max,30.0,4.5,1.0,90.0


In [37]:
data.mean()

age                  25.0000
grades                3.4375
mi_nueva_variable     1.0000
rescaled_grades      68.7500
dtype: float64

In [38]:
data.median()

age                  24.500
grades                3.625
mi_nueva_variable     1.000
rescaled_grades      72.500
dtype: float64

### Aplicar Funciones
Es necesario comprender que _lambda_ y usar _.apply_

In [39]:
data.apply(lambda x: x*2)

Unnamed: 0,names,sex,age,grades,mi_nueva_variable,rescaled_grades
0,MateoMateo,FF,48,9.0,2,180.0
1,JuliánJulián,MM,42,4.0,2,80.0
2,JuanJuan,MM,50,6.5,2,130.0
3,CarlaCarla,,60,8.0,2,160.0


### Ordenar valores
_sort-values_()

In [40]:
data.sort_values('age', inplace=True, ascending=False) # Ordene por edad de menor a mayor. No guarde el valor

In [41]:
print(data)
print(data.reset_index())
print(data.reset_index(drop = True))

    names   sex  age  grades  mi_nueva_variable  rescaled_grades
3   Carla  None   30    4.00                  1             80.0
2    Juan     M   25    3.25                  1             65.0
0   Mateo     F   24    4.50                  1             90.0
1  Julián     M   21    2.00                  1             40.0
   index   names   sex  age  grades  mi_nueva_variable  rescaled_grades
0      3   Carla  None   30    4.00                  1             80.0
1      2    Juan     M   25    3.25                  1             65.0
2      0   Mateo     F   24    4.50                  1             90.0
3      1  Julián     M   21    2.00                  1             40.0
    names   sex  age  grades  mi_nueva_variable  rescaled_grades
0   Carla  None   30    4.00                  1             80.0
1    Juan     M   25    3.25                  1             65.0
2   Mateo     F   24    4.50                  1             90.0
3  Julián     M   21    2.00                  1        

# Borrar Filas y Columnas
1. _drop()_
2. _drop-na()_

In [42]:
data.drop(1) # Borre la fila identificada como 1

Unnamed: 0,names,sex,age,grades,mi_nueva_variable,rescaled_grades
3,Carla,,30,4.0,1,80.0
2,Juan,M,25,3.25,1,65.0
0,Mateo,F,24,4.5,1,90.0


In [43]:
data.drop(columns=['grades']) # Borre la columna de grades

Unnamed: 0,names,sex,age,mi_nueva_variable,rescaled_grades
3,Carla,,30,1,80.0
2,Juan,M,25,1,65.0
0,Mateo,F,24,1,90.0
1,Julián,M,21,1,40.0


In [44]:
data.dropna() # Borre las filas con valores faltantes

Unnamed: 0,names,sex,age,grades,mi_nueva_variable,rescaled_grades
2,Juan,M,25,3.25,1,65.0
0,Mateo,F,24,4.5,1,90.0
1,Julián,M,21,2.0,1,40.0


## Importar Datos
1. Importe el _csv_
1. Importe el _xlsx_


In [45]:
encuesta = pd.read_csv('encuesta_hogares1.csv', sep=",", header=0)

In [46]:
encuesta.head()

Unnamed: 0,DIRECTORIO,HOGAR_NUMERO,PERSONA_NUMERO,edad,sexo
0,36228,1,2,53,2
1,36252,1,2,64,2
2,36281,1,2,88,2
3,36297,1,2,25,2
4,36313,1,1,66,2


#### Ejercicio de exploración de la base con lo aprendido anteriormente. Respoda las siguientes preguntas:
1. ¿Cuantas observaciones tiene la base de datos?
2. ¿Qué columnas tiene? Extraiga estadísticas descriptivas.
3. ¿Cuántos hombres y mujeres hay en la base?
4. ¿Cuántos hogares?
5. ¿Cuántos menores de edad?

In [47]:
%%time
accidentes= pd.read_csv('info_accidentes.csv') # Cargue el csv de info_accidentes

Wall time: 186 ms


In [48]:
accidentes.tail(8)

Unnamed: 0,Fecha,GravedadNombre,ClaseNombre,ChoqueNombre,ObjetoFijoCodigo,ObjetoFijoNombre,OtraClase,NombreOtraClase,Latitud,Longitud,...,TipoVia2,NumeroVia2,LetraVia2,CardinalVia2,Localidad,HoraOcurrencia,TipoDiseño,TipoTiempo,TotalMuertos,TotalHeridos
34923,12/17/2016 12:00:00 AM,Solo Daños,Choque,Vehiculo,,,,,0.0,0.0,...,CL,98.0,,,CHAPINERO,12/31/1899 08:20:00 AM,Lote o predio,Normal,0,0
34924,12/31/2016 12:00:00 AM,Con Heridos,Atropello,,,,,,0.0,0.0,...,KR,3.0,A,,USAQUEN,12/31/1899 01:20:00 PM,Tramo de Via,Normal,0,1
34925,12/29/2016 12:00:00 AM,Con Heridos,Choque,Vehiculo,,,,,0.0,0.0,...,KR,52.0,A,,PUENTE ARANDA,12/31/1899 05:20:00 PM,Tramo de Via,Normal,0,1
34926,12/30/2016 12:00:00 AM,Con Heridos,Choque,Vehiculo,,,,,0.0,0.0,...,CL,35.0,,S,SAN CRISTOBAL,12/31/1899 05:10:00 AM,Tramo de Via,Normal,0,2
34927,12/30/2016 12:00:00 AM,Solo Daños,Choque,Vehiculo,,,,,0.0,0.0,...,CL,45.0,,,CHAPINERO,12/31/1899 12:50:00 AM,Interseccion,Normal,0,0
34928,12/30/2016 12:00:00 AM,Solo Daños,Choque,Vehiculo,,,,,0.0,0.0,...,CL,184.0,,,USAQUEN,12/31/1899 09:00:00 AM,Tramo de Via,Normal,0,0
34929,12/31/2016 12:00:00 AM,Solo Daños,Choque,Vehiculo,,,,,0.0,0.0,...,KR,58.0,,,SUBA,12/31/1899 12:00:00 PM,Tramo de Via,Normal,0,0
34930,12/29/2016 12:00:00 AM,Con Heridos,Atropello,,,,,,0.0,0.0,...,CL,106.0,,,USAQUEN,12/31/1899 09:40:00 AM,Interseccion,Normal,0,0


#### Ejercicio:
1. ¿Cuántos muertos hay registrados en la base de datos? 
2. ¿Cuántos heridos?
3. ¿Cuantos accidentes hubo en Santa Fe? ¿Cuántos muertos y cuántos heridos?
4. Explore la columna TipoTiempo, ¿cuál es la categoría en la que más ocurren accidentes?

## Manipulación
Existen cuatro formas básicas (universales) de unir (join) bases de datos.
1. inner
2. left
3. right
4. outer

Aunque hay otras formas de unir bases de datos, a través de pegues horizontales o verticales. Estos otros métodos son más eficientes si los datos están ordenados
1. [merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html): une utilizando una(s) columna(s) ó el índice en común
2. [join](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html): merge usando el índice por la izquierda
3. [concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html): pega nuevas filas o columnas según se especifique
4. [append](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html): concat con axis=0 y join='outer', es decir nuevas filas

In [49]:
del encuesta # Borre el objeto encuesta
encuesta1 = pd.read_csv('encuesta_hogares1.csv', sep=",", header=0) #importe encuesta1
encuesta2 = pd.read_csv('encuesta_hogares2.csv', sep=",", header=0) #importe encuesta2

In [50]:
encuesta=pd.concat([encuesta1, encuesta2]) # Haga concat, Jugar con axis, el índice
encuesta

Unnamed: 0,DIRECTORIO,HOGAR_NUMERO,PERSONA_NUMERO,edad,sexo
0,36228,1,2,53,2
1,36252,1,2,64,2
2,36281,1,2,88,2
3,36297,1,2,25,2
4,36313,1,1,66,2
5,36368,1,2,66,2
6,36383,1,6,27,2
7,36398,1,1,61,2
8,36422,1,2,44,2
9,36439,1,2,45,2


In [51]:
encuesta1.append(encuesta2)

Unnamed: 0,DIRECTORIO,HOGAR_NUMERO,PERSONA_NUMERO,edad,sexo
0,36228,1,2,53,2
1,36252,1,2,64,2
2,36281,1,2,88,2
3,36297,1,2,25,2
4,36313,1,1,66,2
5,36368,1,2,66,2
6,36383,1,6,27,2
7,36398,1,1,61,2
8,36422,1,2,44,2
9,36439,1,2,45,2


In [1]:
del accidentes # Borre accidentes
accidentes1=pd.read_excel('info_accidentes.xlsx', sheet_name='parteA') #importe la hoja parteA de info_accidentes.xlsx
accidentes2=pd.read_excel('info_accidentes.xlsx', sheet_name='parteB') #importe la hoja parteA de info_accidentes.xlsx

NameError: name 'accidentes' is not defined

In [53]:
# Convierta a strings las direcciones y fechas
accidentes1['Direccion']=accidentes1['Direccion'].astype(str) 
accidentes1['Fecha']=accidentes1['Fecha'].astype(str)
accidentes2['Direccion']=accidentes2['Direccion'].astype(str)
accidentes2['Fecha']=accidentes2['Fecha'].astype(str)

In [54]:
# use merge
accidentes=pd.merge(accidentes1, accidentes2, on=['Direccion', 'Fecha'])

## Exportar bases de datos
1. [to_excel()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html)
2. [to_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)
3. [to_pickle](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_pickle.html)

In [None]:
data.to_excel('primer_data.xlsx', sheet_name='Prueba', index=False)

In [None]:
data.to_csv('primer_data.csv', sep=' ', chunksize=None)

In [None]:
data.to_pickle('primer_data.pkl', compression='infer')