# **Taller de Python**
## Profesor: Juan S. Moreno P. y Julián Chitiva

# Clase 7: Introducción a Pandas

En esta clase estudiaremos _Pandas_, este es el paquete más robusto y famoso en Python para la manipulación de bases de datos.

En Pandas existen tres tipos de estructuras: 

- Series: data en un arreglo 1D, etiquetada, homogénea e inmutable de tamaño
- **Data Frames**: arreglo 2D, tamaño mutable, columnas heterogéneas, etiquetadas
- Panel: arreglo 3D, tamaño mutable.

In [1]:
import pandas as pd # importe el paquete

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" alt="Pandas DataFrame">
<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg" alt="Pandas DataFrame">

## Creación de DataFrame a partir de un diccionario

In [2]:
# Cree 4 listas
nombres=['Mateo', 'Julián', 'Juan', 'Carla']
sexo=['F', 'M', 'M', None]
edad=[24,21,25,30]
notas=[4.5, 2, 3.25, 4]

In [3]:
diccionario={'names':nombres, 'sex':sexo, 'age':edad, 'grades':notas} # Contruya un diccionario

In [4]:
diccionario

{'names': ['Mateo', 'Julián', 'Juan', 'Carla'],
 'sex': ['F', 'M', 'M', None],
 'age': [24, 21, 25, 30],
 'grades': [4.5, 2, 3.25, 4]}

In [5]:
data=pd.DataFrame(diccionario) # Conviértalo en data frame

In [6]:
data

Unnamed: 0,names,sex,age,grades
0,Mateo,F,24,4.5
1,Julián,M,21,2.0
2,Juan,M,25,3.25
3,Carla,,30,4.0


## Componentes principales de un DataFrame
### `index`

In [7]:
data.index # Estudio el índice

RangeIndex(start=0, stop=4, step=1)

### `columns`

In [8]:
data.columns # Columnas

Index(['names', 'sex', 'age', 'grades'], dtype='object')

### `shape`

In [9]:
data.shape # Dimensiones

(4, 4)

### size`

In [10]:
data.size # Cantidad de datos

16

### `count`

In [11]:
data.count() # Cantidad de datos no Nulos

names     4
sex       3
age       4
grades    4
dtype: int64

### `values`

In [12]:
data.values # Lo vuelve np.array

array([['Mateo', 'F', 24, 4.5],
       ['Julián', 'M', 21, 2.0],
       ['Juan', 'M', 25, 3.25],
       ['Carla', None, 30, 4.0]], dtype=object)

### `T`

In [13]:
data.T # Trasponer

Unnamed: 0,0,1,2,3
names,Mateo,Julián,Juan,Carla
sex,F,M,M,
age,24,21,25,30
grades,4.5,2,3.25,4


### `dtypes`

In [14]:
data.dtypes

names      object
sex        object
age         int64
grades    float64
dtype: object

## Indexación y Ejes

### Filtrar columnas
<img src="https://pandas.pydata.org/docs/_images/03_subset_columns.svg" title = "Columnas">

In [15]:
data['names'] # Extraiga la columna names 

0     Mateo
1    Julián
2      Juan
3     Carla
Name: names, dtype: object

In [16]:
data.names # Extraiga la colunma names como método

0     Mateo
1    Julián
2      Juan
3     Carla
Name: names, dtype: object

### Filtrar filas
<img src="https://pandas.pydata.org/docs/_images/03_subset_rows.svg" title="Filas">

In [17]:
data[data['names']=='Mateo'] # Extraiga la columna cuya variable 'names' es igual a Mateo 

Unnamed: 0,names,sex,age,grades
0,Mateo,F,24,4.5


### Filas y columnas
<img src="https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg" title="Filas y Columnas">

In [18]:
data.loc[data['names'].isin(['Mateo','Juan']), ['names','age']]

Unnamed: 0,names,age
0,Mateo,24
2,Juan,25


### `set_index`

In [19]:
data.set_index('names', inplace=True) # Ponga la columna names como índice
data

Unnamed: 0_level_0,sex,age,grades
names,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mateo,F,24,4.5
Julián,M,21,2.0
Juan,M,25,3.25
Carla,,30,4.0


### `.loc` y `.iloc`

In [20]:
print(data.loc['Mateo']) # Extraiga la fila de Mateo usando .loc
print(data.loc[:,'age']) # Extraiga la columna de edad usando .loc
print(data.loc[['Juan', 'Carla'], 'grades']) # Extraiga las notas de Juan y Carla usando .loc

sex         F
age        24
grades    4.5
Name: Mateo, dtype: object
names
Mateo     24
Julián    21
Juan      25
Carla     30
Name: age, dtype: int64
names
Juan     3.25
Carla    4.00
Name: grades, dtype: float64


In [21]:
print(data.iloc[1]) # Extraiga la segunda fila usando .iloc
print(data.iloc[:,[1,2]]) # Extraiga la segunda y tercera columna usando .iloc
print(data.iloc[[0,-1],[1]]) # Extraiga la primera y última fila y segunda columna usando .iloc

sex        M
age       21
grades     2
Name: Julián, dtype: object
        age  grades
names              
Mateo    24    4.50
Julián   21    2.00
Juan     25    3.25
Carla    30    4.00
       age
names     
Mateo   24
Carla   30


### `reset_index()`

In [22]:
data.reset_index(inplace=True, drop=False) # Reinicie el índice
data

Unnamed: 0,names,sex,age,grades
0,Mateo,F,24,4.5
1,Julián,M,21,2.0
2,Juan,M,25,3.25
3,Carla,,30,4.0


## Edición de columnas
1. ¿Qué tipo de objeto es una columna?
2. Súmele a la edad 2 años (no guarde el valor, solo imprímalo).
3. Cree una nueva columna, que se llame 'mi_nueva_variable' que sea el número 1 en todas las filas. 
4. Reescale las notas de 0 a 100 en una nueva columna.

In [23]:
type(data.grades)

pandas.core.series.Series

In [24]:
data.age+2 # También vea como usar .add(), .sub(), .mul() y .div()

0    26
1    23
2    27
3    32
Name: age, dtype: int64

In [25]:
data['mi_nueva_variable']=1
data

Unnamed: 0,names,sex,age,grades,mi_nueva_variable
0,Mateo,F,24,4.5,1
1,Julián,M,21,2.0,1
2,Juan,M,25,3.25,1
3,Carla,,30,4.0,1


In [26]:
data['rescaled_grades']=data.grades*100/5
data

Unnamed: 0,names,sex,age,grades,mi_nueva_variable,rescaled_grades
0,Mateo,F,24,4.5,1,90.0
1,Julián,M,21,2.0,1,40.0
2,Juan,M,25,3.25,1,65.0
3,Carla,,30,4.0,1,80.0


## Estadísticas descriptivas (Revise axis=0 y axis=1)
### `sum()`

In [27]:
data.sum()

names                MateoJuliánJuanCarla
age                                   100
grades                              13.75
mi_nueva_variable                       4
rescaled_grades                       275
dtype: object

### `min()`

In [28]:
data.min()

names                Carla
age                     21
grades                   2
mi_nueva_variable        1
rescaled_grades         40
dtype: object

### `max()`

In [29]:
data.max()

names                Mateo
age                     30
grades                 4.5
mi_nueva_variable        1
rescaled_grades         90
dtype: object

### `argmin()` y `argmax()`

In [30]:
data.age.argmin()

1

In [31]:
data.rescaled_grades.argmax()

0

### `idxmin()` y `idxmax()`

In [32]:
data.age.idxmin()

1

In [33]:
data.rescaled_grades.idxmax()

0

### `describe()`

In [34]:
data.describe()

Unnamed: 0,age,grades,mi_nueva_variable,rescaled_grades
count,4.0,4.0,4.0,4.0
mean,25.0,3.4375,1.0,68.75
std,3.741657,1.087332,0.0,21.746647
min,21.0,2.0,1.0,40.0
25%,23.25,2.9375,1.0,58.75
50%,24.5,3.625,1.0,72.5
75%,26.25,4.125,1.0,82.5
max,30.0,4.5,1.0,90.0


### `mean()`

In [35]:
data.mean()

age                  25.0000
grades                3.4375
mi_nueva_variable     1.0000
rescaled_grades      68.7500
dtype: float64

### median()`

In [36]:
data.median()

age                  24.500
grades                3.625
mi_nueva_variable     1.000
rescaled_grades      72.500
dtype: float64

## Aplicar Funciones
Es necesario comprender que `lambda` y usar `.apply`

In [37]:
data.apply(lambda x: x*2)

Unnamed: 0,names,sex,age,grades,mi_nueva_variable,rescaled_grades
0,MateoMateo,FF,48,9.0,2,180.0
1,JuliánJulián,MM,42,4.0,2,80.0
2,JuanJuan,MM,50,6.5,2,130.0
3,CarlaCarla,,60,8.0,2,160.0


## Ordenar valores
### `sort_values`

In [38]:
data.sort_values('age', inplace=True, ascending=False) # Ordene por edad de menor a mayor. No guarde el valor

In [39]:
print(data)
print(data.reset_index())
print(data.reset_index(drop = True))

    names   sex  age  grades  mi_nueva_variable  rescaled_grades
3   Carla  None   30    4.00                  1             80.0
2    Juan     M   25    3.25                  1             65.0
0   Mateo     F   24    4.50                  1             90.0
1  Julián     M   21    2.00                  1             40.0
   index   names   sex  age  grades  mi_nueva_variable  rescaled_grades
0      3   Carla  None   30    4.00                  1             80.0
1      2    Juan     M   25    3.25                  1             65.0
2      0   Mateo     F   24    4.50                  1             90.0
3      1  Julián     M   21    2.00                  1             40.0
    names   sex  age  grades  mi_nueva_variable  rescaled_grades
0   Carla  None   30    4.00                  1             80.0
1    Juan     M   25    3.25                  1             65.0
2   Mateo     F   24    4.50                  1             90.0
3  Julián     M   21    2.00                  1        

## Borrar Filas y Columnas
### `drop()`

In [40]:
data.drop(1) # Borre la fila identificada como 1

Unnamed: 0,names,sex,age,grades,mi_nueva_variable,rescaled_grades
3,Carla,,30,4.0,1,80.0
2,Juan,M,25,3.25,1,65.0
0,Mateo,F,24,4.5,1,90.0


In [41]:
data.drop(columns=['grades']) # Borre la columna de grades

Unnamed: 0,names,sex,age,mi_nueva_variable,rescaled_grades
3,Carla,,30,1,80.0
2,Juan,M,25,1,65.0
0,Mateo,F,24,1,90.0
1,Julián,M,21,1,40.0


### `drop_na()`

In [42]:
data.dropna() # Borre las filas con valores faltantes

Unnamed: 0,names,sex,age,grades,mi_nueva_variable,rescaled_grades
2,Juan,M,25,3.25,1,65.0
0,Mateo,F,24,4.5,1,90.0
1,Julián,M,21,2.0,1,40.0


## Importar Datos _csv_ y _xlsx_

In [43]:
%%time
accidentes= pd.read_csv('info_accidentes.csv') # Cargue el csv de info_accidentes

CPU times: user 87.8 ms, sys: 16 ms, total: 104 ms
Wall time: 103 ms


In [44]:
accidentes.tail(8)

Unnamed: 0,Fecha,GravedadNombre,ClaseNombre,ChoqueNombre,ObjetoFijoCodigo,ObjetoFijoNombre,OtraClase,NombreOtraClase,Latitud,Longitud,...,TipoVia2,NumeroVia2,LetraVia2,CardinalVia2,Localidad,HoraOcurrencia,TipoDiseño,TipoTiempo,TotalMuertos,TotalHeridos
34923,12/17/2016 12:00:00 AM,Solo Daños,Choque,Vehiculo,,,,,0.0,0.0,...,CL,98.0,,,CHAPINERO,12/31/1899 08:20:00 AM,Lote o predio,Normal,0,0
34924,12/31/2016 12:00:00 AM,Con Heridos,Atropello,,,,,,0.0,0.0,...,KR,3.0,A,,USAQUEN,12/31/1899 01:20:00 PM,Tramo de Via,Normal,0,1
34925,12/29/2016 12:00:00 AM,Con Heridos,Choque,Vehiculo,,,,,0.0,0.0,...,KR,52.0,A,,PUENTE ARANDA,12/31/1899 05:20:00 PM,Tramo de Via,Normal,0,1
34926,12/30/2016 12:00:00 AM,Con Heridos,Choque,Vehiculo,,,,,0.0,0.0,...,CL,35.0,,S,SAN CRISTOBAL,12/31/1899 05:10:00 AM,Tramo de Via,Normal,0,2
34927,12/30/2016 12:00:00 AM,Solo Daños,Choque,Vehiculo,,,,,0.0,0.0,...,CL,45.0,,,CHAPINERO,12/31/1899 12:50:00 AM,Interseccion,Normal,0,0
34928,12/30/2016 12:00:00 AM,Solo Daños,Choque,Vehiculo,,,,,0.0,0.0,...,CL,184.0,,,USAQUEN,12/31/1899 09:00:00 AM,Tramo de Via,Normal,0,0
34929,12/31/2016 12:00:00 AM,Solo Daños,Choque,Vehiculo,,,,,0.0,0.0,...,KR,58.0,,,SUBA,12/31/1899 12:00:00 PM,Tramo de Via,Normal,0,0
34930,12/29/2016 12:00:00 AM,Con Heridos,Atropello,,,,,,0.0,0.0,...,CL,106.0,,,USAQUEN,12/31/1899 09:40:00 AM,Interseccion,Normal,0,0


## Ejercicio:
1. ¿Cuántos muertos hay registrados en la base de datos? 
2. ¿Cuántos heridos?
3. ¿Cuantos accidentes hubo en Santa Fe? ¿Cuántos muertos y cuántos heridos?
4. Explore la columna TipoTiempo, ¿cuál es la categoría en la que más ocurren accidentes?