# **Taller de Python**
## Profesor: Juan S. Moreno P. y Julián Chitiva

# Clase 7: Introducción a Pandas

En esta clase estudiaremos _Pandas_, este es el paquete más robusto y famoso en Python para la manipulación de bases de datos.

En Pandas existen tres tipos de estructuras: 

- Series: data en un arreglo 1D, etiquetada, homogénea e inmutable de tamaño
- **Data Frames**: arreglo 2D, tamaño mutable, columnas heterogéneas, etiquetadas
- Panel: arreglo 3D, tamaño mutable.

In [17]:
import pandas as pd # importe el paquete
import numpy as np

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" alt="Pandas DataFrame">
<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg" alt="Pandas DataFrame">

## Creación de DataFrame a partir de un diccionario

In [19]:
# Cree 4 listas
nombres=['Mateo', 'Julián', 'Juan', 'Carla', 'Antonia']
sexo=['F', 'M', 'M', None, None]
edad=[24,21,25,30, 27]
notas=[4.5, 2, 3.25, 4, np.nan]

dicc_1 = {
    'nombres':nombres,
    'sexo':sexo,
    'edad':edad,
    'notas':notas
}
print(dicc_1)
datos = pd.DataFrame.from_dict(dicc_1,orient='columns')
datos

{'nombres': ['Mateo', 'Julián', 'Juan', 'Carla', 'Antonia'], 'sexo': ['F', 'M', 'M', None, None], 'edad': [24, 21, 25, 30, 27], 'notas': [4.5, 2, 3.25, 4, nan]}


Unnamed: 0,nombres,sexo,edad,notas
0,Mateo,F,24,4.5
1,Julián,M,21,2.0
2,Juan,M,25,3.25
3,Carla,,30,4.0
4,Antonia,,27,


## Componentes principales de un DataFrame
### `index`

In [11]:
datos.index

RangeIndex(start=0, stop=5, step=1)

### `columns`

In [12]:
datos.columns

Index(['nombres', 'sexo', 'edad', 'notas'], dtype='object')

### `shape`

In [13]:
datos.shape

(5, 4)

### `size`

In [14]:
datos.size

20

### `count`

In [16]:
datos

Unnamed: 0,nombres,sexo,edad,notas
0,Mateo,F,24,4.5
1,Julián,M,21,2.0
2,Juan,M,25,3.25
3,Carla,,30,4.0
4,Antonia,,27,5.0


In [20]:
datos.count()

nombres    5
sexo       3
edad       5
notas      4
dtype: int64

### `values`

In [21]:
datos.values

array([['Mateo', 'F', 24, 4.5],
       ['Julián', 'M', 21, 2.0],
       ['Juan', 'M', 25, 3.25],
       ['Carla', None, 30, 4.0],
       ['Antonia', None, 27, nan]], dtype=object)

### `T`

In [22]:
datos.T

Unnamed: 0,0,1,2,3,4
nombres,Mateo,Julián,Juan,Carla,Antonia
sexo,F,M,M,,
edad,24,21,25,30,27
notas,4.5,2,3.25,4,


### `dtypes`

In [23]:
datos.dtypes

nombres     object
sexo        object
edad         int64
notas      float64
dtype: object

## Indexación y Ejes

### Filtrar columnas
<img src="https://pandas.pydata.org/docs/_images/03_subset_columns.svg" title = "Columnas">

In [24]:
datos.nombres

0      Mateo
1     Julián
2       Juan
3      Carla
4    Antonia
Name: nombres, dtype: object

In [25]:
datos['nombres']

0      Mateo
1     Julián
2       Juan
3      Carla
4    Antonia
Name: nombres, dtype: object

In [28]:
datos[['nombres']]

Unnamed: 0,nombres
0,Mateo
1,Julián
2,Juan
3,Carla
4,Antonia


In [27]:
datos[['nombres', 'edad']]

Unnamed: 0,nombres,edad
0,Mateo,24
1,Julián,21
2,Juan,25
3,Carla,30
4,Antonia,27


### Filtrar filas
<img src="https://pandas.pydata.org/docs/_images/03_subset_rows.svg" title="Filas">

In [30]:
datos.nombres=='Mateo'

0     True
1    False
2    False
3    False
4    False
Name: nombres, dtype: bool

In [29]:
datos[datos.nombres=='Mateo']

Unnamed: 0,nombres,sexo,edad,notas
0,Mateo,F,24,4.5


In [35]:
(datos.nombres=='Mateo') | (datos.edad >27)

0     True
1    False
2    False
3     True
4    False
dtype: bool

In [32]:
datos[(datos.nombres=='Mateo') | (datos.edad >27)]

Unnamed: 0,nombres,sexo,edad,notas
0,Mateo,F,24,4.5
3,Carla,,30,4.0


### Filas y columnas
<img src="https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg" title="Filas y Columnas">

### `set_index`

In [36]:
datos.index

RangeIndex(start=0, stop=5, step=1)

In [39]:
datos.set_index('nombres',inplace=True)

In [40]:
datos

Unnamed: 0_level_0,sexo,edad,notas
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mateo,F,24,4.5
Julián,M,21,2.0
Juan,M,25,3.25
Carla,,30,4.0
Antonia,,27,


### `.loc` y `.iloc`

In [41]:
datos.iloc[0, 2]

4.5

In [47]:
datos.loc[['Mateo','Julián'],'notas']

nombres
Mateo     4.5
Julián    2.0
Name: notas, dtype: float64

In [44]:
datos.loc[(datos.index=='Mateo') | (datos.edad >27), ['notas','edad']]

Unnamed: 0_level_0,notas,edad
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1
Mateo,4.5,24
Carla,4.0,30


In [46]:
datos.iloc[[0,3], [2,0]]

Unnamed: 0_level_0,notas,sexo
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1
Mateo,4.5,F
Carla,4.0,


### `reset_index()`

In [50]:
datos.reset_index(inplace=True)
## con inplace=True es equivalente a decir: datos = datos.reset_index()

In [57]:
datos

Unnamed: 0,nombres,sexo,edad,notas
0,Mateo,F,24,4.5
1,Julián,M,21,2.0
2,Juan,M,25,3.25
3,Carla,,30,4.0
4,Antonia,,27,


In [54]:
datos.loc[0]

nombres    Mateo
sexo           F
edad          24
notas        4.5
Name: 0, dtype: object

## Edición de columnas
1. ¿Qué tipo de objeto es una columna?
2. Súmele a la edad 2 años (no guarde el valor, solo imprímalo).
3. Cree una nueva columna, que se llame 'mi_nueva_variable' que sea el número 1 en todas las filas. 
4. Reescale las notas de 0 a 100 en una nueva columna.

In [58]:
type(datos.nombres)

pandas.core.series.Series

In [59]:
type(datos)

pandas.core.frame.DataFrame

In [60]:
datos.edad + 2

0    26
1    23
2    27
3    32
4    29
Name: edad, dtype: int64

In [61]:
datos['mi_nueva_variable']=1

In [62]:
datos

Unnamed: 0,nombres,sexo,edad,notas,mi_nueva_variable
0,Mateo,F,24,4.5,1
1,Julián,M,21,2.0,1
2,Juan,M,25,3.25,1
3,Carla,,30,4.0,1
4,Antonia,,27,,1


In [63]:
datos['notas_100'] = datos.notas/5*100

In [64]:
datos

Unnamed: 0,nombres,sexo,edad,notas,mi_nueva_variable,notas_100
0,Mateo,F,24,4.5,1,90.0
1,Julián,M,21,2.0,1,40.0
2,Juan,M,25,3.25,1,65.0
3,Carla,,30,4.0,1,80.0
4,Antonia,,27,,1,


## Estadísticas descriptivas (Revise axis=0 y axis=1)
### `sum()`

In [65]:
datos.sum()

nombres              MateoJuliánJuanCarlaAntonia
edad                                         127
notas                                      13.75
mi_nueva_variable                              5
notas_100                                    275
dtype: object

In [67]:
datos.sum(axis='index') # datos.sum(axis=0)

nombres              MateoJuliánJuanCarlaAntonia
edad                                         127
notas                                      13.75
mi_nueva_variable                              5
notas_100                                    275
dtype: object

In [69]:
datos

Unnamed: 0,nombres,sexo,edad,notas,mi_nueva_variable,notas_100
0,Mateo,F,24,4.5,1,90.0
1,Julián,M,21,2.0,1,40.0
2,Juan,M,25,3.25,1,65.0
3,Carla,,30,4.0,1,80.0
4,Antonia,,27,,1,


In [68]:
datos.sum(axis='columns') # datos.sum(axis=1)

0    119.50
1     64.00
2     94.25
3    115.00
4     28.00
dtype: float64

### `min()`

In [71]:
datos.min(axis=1)

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

In [72]:
datos.min(axis=0)

nombres              Antonia
edad                      21
notas                      2
mi_nueva_variable          1
notas_100                 40
dtype: object

### `max()`

In [73]:
datos.max(axis=0)

nombres              Mateo
edad                    30
notas                  4.5
mi_nueva_variable        1
notas_100               90
dtype: object

In [74]:
datos.max(axis=1)

0    90.0
1    40.0
2    65.0
3    80.0
4    27.0
dtype: float64

### `idxmin()` y `idxmax()` / `argmin()` y `argmax()`

In [80]:
datos.set_index('nombres')

Unnamed: 0_level_0,sexo,edad,notas,mi_nueva_variable,notas_100
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Mateo,F,24,4.5,1,90.0
Julián,M,21,2.0,1,40.0
Juan,M,25,3.25,1,65.0
Carla,,30,4.0,1,80.0
Antonia,,27,,1,


In [83]:
datos.set_index('nombres').edad.argmax()

3

In [84]:
datos.set_index('nombres').edad.idxmax()

'Carla'

### `describe()`

In [85]:
datos.describe()

Unnamed: 0,edad,notas,mi_nueva_variable,notas_100
count,5.0,4.0,5.0,4.0
mean,25.4,3.4375,1.0,68.75
std,3.361547,1.087332,0.0,21.746647
min,21.0,2.0,1.0,40.0
25%,24.0,2.9375,1.0,58.75
50%,25.0,3.625,1.0,72.5
75%,27.0,4.125,1.0,82.5
max,30.0,4.5,1.0,90.0


In [86]:
datos.describe(include='all')

Unnamed: 0,nombres,sexo,edad,notas,mi_nueva_variable,notas_100
count,5,3,5.0,4.0,5.0,4.0
unique,5,2,,,,
top,Antonia,M,,,,
freq,1,2,,,,
mean,,,25.4,3.4375,1.0,68.75
std,,,3.361547,1.087332,0.0,21.746647
min,,,21.0,2.0,1.0,40.0
25%,,,24.0,2.9375,1.0,58.75
50%,,,25.0,3.625,1.0,72.5
75%,,,27.0,4.125,1.0,82.5


### `mean()`

In [87]:
datos.mean()

edad                 25.4000
notas                 3.4375
mi_nueva_variable     1.0000
notas_100            68.7500
dtype: float64

### `median()`

In [88]:
datos.median()

edad                 25.000
notas                 3.625
mi_nueva_variable     1.000
notas_100            72.500
dtype: float64

## Aplicar Funciones
Es necesario comprender que `lambda` y usar `.apply`

In [89]:
datos.apply(lambda x: len(x), axis=1)

0    6
1    6
2    6
3    6
4    6
dtype: int64

## Ordenar valores
### `sort_values`

In [98]:
datos2 = datos.sort_values(by='nombres')

In [103]:
datos2

Unnamed: 0,nombres,sexo,edad,notas,mi_nueva_variable,notas_100
4,Antonia,,27,,1,
3,Carla,,30,4.0,1,80.0
2,Juan,M,25,3.25,1,65.0
1,Julián,M,21,2.0,1,40.0
0,Mateo,F,24,4.5,1,90.0


In [102]:
datos2.edad.argmin()

3

In [104]:
datos2.edad.idxmin()

1

In [106]:
datos2.iloc[4,:]

nombres              Mateo
sexo                     F
edad                    24
notas                  4.5
mi_nueva_variable        1
notas_100               90
Name: 0, dtype: object

In [107]:
datos2.loc[4,:]

nombres              Antonia
sexo                    None
edad                      27
notas                    NaN
mi_nueva_variable          1
notas_100                NaN
Name: 4, dtype: object

## Borrar Filas y Columnas
### `drop()`

In [110]:
datos2.drop(index=[0,1,3],inplace=True)

In [113]:
datos2.drop(columns=['mi_nueva_variable','notas_100'], inplace=True)

In [116]:
datos2

Unnamed: 0,nombres,sexo,edad,notas
4,Antonia,,27,
2,Juan,M,25,3.25


### `dropna()`

In [117]:
datos

Unnamed: 0,nombres,sexo,edad,notas,mi_nueva_variable,notas_100
0,Mateo,F,24,4.5,1,90.0
1,Julián,M,21,2.0,1,40.0
2,Juan,M,25,3.25,1,65.0
3,Carla,,30,4.0,1,80.0
4,Antonia,,27,,1,


In [119]:
datos.dropna()

Unnamed: 0,nombres,sexo,edad,notas,mi_nueva_variable,notas_100
0,Mateo,F,24,4.5,1,90.0
1,Julián,M,21,2.0,1,40.0
2,Juan,M,25,3.25,1,65.0


In [120]:
datos.dropna(how='all')

Unnamed: 0,nombres,sexo,edad,notas,mi_nueva_variable,notas_100
0,Mateo,F,24,4.5,1,90.0
1,Julián,M,21,2.0,1,40.0
2,Juan,M,25,3.25,1,65.0
3,Carla,,30,4.0,1,80.0
4,Antonia,,27,,1,


In [122]:
datos.dropna(subset=['mi_nueva_variable', 'notas'])

Unnamed: 0,nombres,sexo,edad,notas,mi_nueva_variable,notas_100
0,Mateo,F,24,4.5,1,90.0
1,Julián,M,21,2.0,1,40.0
2,Juan,M,25,3.25,1,65.0
3,Carla,,30,4.0,1,80.0


In [123]:
datos.dropna(axis=1)

Unnamed: 0,nombres,edad,mi_nueva_variable
0,Mateo,24,1
1,Julián,21,1
2,Juan,25,1
3,Carla,30,1
4,Antonia,27,1


## Importar Datos _csv_ y _xlsx_

## Ejercicio:
1. ¿Cuántos muertos hay registrados en la base de datos? 
2. ¿Cuántos heridos?
3. ¿Cuantos accidentes hubo en Santa Fe? ¿Cuántos muertos y cuántos heridos?
4. Explore la columna TipoTiempo, ¿cuál es la categoría en la que más ocurren accidentes?