# Turial: Introducción a Python

## Herramientas

### Anaconda
Una forma fácil de tener un ambiente de Python **local** con las bibliotecas más comunes es instalando *Anaconda*. Para esto:

- Descarga en el siguiente link la última versión de Python: https://www.python.org/downloads/
- Descarga en el siguiente link la última versión de Anaconda: https://www.anaconda.com/distribution/
- Puedes probar tu instalación ejecutando `python` en un terminal `Anaconda Prompt` y verificar que diga algo como `Python 3.7.6 |Anaconda 4.9.0` al principio. Opcionalmente, si quieres ejecutar las herramientas de anaconda desde la terminal del sistema, asegúrate de dejar en el PATH el directorio `bin` de anaconda (Guía en windows, *Add Anaconda to Path (Optional)* https://www.datacamp.com/community/tutorials/installing-anaconda-windows).

**Instalación de Bibliotecas:**
Anaconda facilita mucho la instalación de las bibliotecas que usaremos en este laboratorio. Instalar las bibliotecas (`scikit-learn`, `jupyter`) desde cero puede ser un poco complicado. Por lo tanto, instalar Anaconda es altamente recomendado para estas sesiones de laboratorio.

1. Abrir aplicación Anaconda prompt.
2. Ejecutar comando: conda install *biblioteca*

Para este tutorial instalar las bibliotecas: *numpy*, *scikit-learn*, *pandas*, *matplotlib*, *seaborn*

### Jupyter

**Jupyter notebook** (viene con anaconda) es una aplicación web que permite crear documentos con código Python, similar a los R Notebooks o R Markdown. Para este tutorial y los laboratorios 2.1 y 2.2 usaremos un **notebook** donde deberán completar sus respuestas en el mismo archivo.

Para cargar y editar un archivo.ipynb deben abrir la terminal y ejecutar `jupyter notebook`. Esto abrirá el navegador donde pueden buscar el archivo .ipynb dentro del directorio. TIP: con Shift-Enter pueden ejecutar cada bloque del notebook.


El archivo en formato **HTML** se puede descargar ejecutando el siguiente comando desde la consola de anaconda:

`jupyter nbconvert nombre_archivo.ipynb --to html`

Otra opción más sencilla es descargarlo desde el mismo notebook, haciendo clic en:
*File -> Download as-> HTML (.html)*

## Google Colab

Aunque usaremos un notebook local (porque es importante que se familiaricen con anaconda), deben conocer <a href="https://colab.research.google.com/notebooks/welcome.ipynb?hl=es_US">Colaboratory</a>, también llamado "Colab", que esencialmente es un jupyter notebook con las siguientes ventajas:
- No requiere configuración
- Da acceso gratuito a GPUs
- Permite compartir contenido fácilmente

## Data Frames
Un data frame es una tabla, con filas y columnas. Cada columna debe tener nombre mientras que las filas pueden tener nombre, pero no es recomendable.

### Introducción a Pandas

Pandas es una herramienta de manipulación y análisis de datos de código abierto rápida, potente, flexible y fácil de usar [<https://pandas.pydata.org/>]. Este paquete de Python proporciona estructuras de datos similares a los dataframes de R (tablas con filas de observaciones y columnas de variables).

Pandas proporciona mecanismos eficientes para trabajar con diferentes formatos de datos como archivos CSV (del inglés comma-separated values), archivos de Excel o bases de datos.

Las dos estructuras de datos principales de Pandas son: **Series** (Matriz unidimensional etiquetada de forma homogénea) y **DataFrame** (Estructura de datos bidimensional con columnas que pueden contener diferentes tipos de datos). Podríamos pensar en las estructuras de datos de Pandas como contenedores flexibles para datos de dimensiones inferiores. Por ejemplo, DataFrame es un contenedor para Series y Series es un contenedor para escalares [<https://pandas.pydata.org/pandas-docs/stable/getting_started/overview.html>].

In [2]:
import pandas as pd

# Definimos un DataFrame con dos columnas, 'x' e 'y', y una columna adicional 'voltaje'
data = {'x': [10, 20, 30], 'y': ['a', 'b', 'c'], 'voltaje': [1, 1, 1]}
df = pd.DataFrame(data)

# Mostramos todo el DataFrame, observa cómo se crean los encabezados.
print(df)


    x  y  voltaje
0  10  a        1
1  20  b        1
2  30  c        1


In [None]:
# Muestra solo la columna 'x'.
df['x']

In [None]:
# Para mostrar sólo la columna y.
df['y']

In [3]:
# Para indicar el número de filas y columnas de d
df.shape

(3, 3)

In [4]:
# Para indicar el número de filas de d.
# Utilizando la función shape
num_filas = df.shape[0]
print(num_filas)

# Utilizando la función len
num_filas = len(df)
print(num_filas)


3
3


In [5]:
# Para indicar el número de columnas de d.

# Utilizando la función shape
num_columnas = df.shape[1]
print(num_columnas)

# Utilizando la función len junto con columns
num_columnas = len(df.columns)
print(num_columnas)


3
3


## Ejemplo: Datos de Accidentes de Tránsito en Chile

Usaremos los datos de accidentes de tránsito en Chile en los años 2010 y 2011.

Puedes descargar los datos al computador de las siguientes direcciones:

<https://users.dcc.uchile.cl/~hsarmien/mineria/datasets/accidentes_2010_2011.txt>
<https://users.dcc.uchile.cl/~hsarmien/mineria/datasets/afectados_2010_2011.txt>



Puedes descargarlos o cargarlos remotamente.

Si los descargas:

In [None]:

# Lee el archivo 'accidentes_2010_2011.txt' en un DataFrame llamado 'tipos'
tipos = pd.read_table("accidentes_2010_2011.txt")

# Lee el archivo 'afectados_2010_2011.txt' en un DataFrame llamado 'afectados'
afectados = pd.read_table("afectados_2010_2011.txt")


Para cargar los datos remotamente:

In [8]:

# Lee el archivo 'accidentes_2010_2011.txt' en un DataFrame llamado 'tipos'
tipos = pd.read_table("https://users.dcc.uchile.cl/~hsarmien/mineria/datasets/accidentes_2010_2011.txt", sep = ' ')

# Lee el archivo 'afectados_2010_2011.txt' en un DataFrame llamado 'afectados'
afectados = pd.read_table("https://users.dcc.uchile.cl/~hsarmien/mineria/datasets/afectados_2010_2011.txt", sep=' ')


Esta última opción es conveniente porque son archivos pequeños.

Siempre que llegue a sus manos un dataset, lo primero es hacer una revisión inicial para entender cómo están estructurados los datos. Esto significa, entender cuántos datos son, cuántas columnas, qué describe cada columna, el tipo de datos de las columnas, normalización de datos, entre otras cosas.

En nuestro caso, el dataset tipos contiene la frecuencia de los distintos tipos de accidentes ocurridos en el 2010 y 2011, en Chile. Por otro lado, el dataset afectados contiene el estado de gravedad en que terminaron los accidente en Chile. Desde luego que ambos datasets se complementan.


### Atributos de un dataset

In [11]:
tipos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4296 entries, 1 to 4296
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Muestra        4296 non-null   object
 1   Descripcion    4296 non-null   object
 2   Anio           4296 non-null   int64 
 3   TipoAccidente  4296 non-null   object
 4   Cantidad       4296 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 201.4+ KB


Acá se muestra einformación sobre el DataFrame, incluyendo el nombre de las columnas, el número de entradas no nulas y los tipos de datos de cada columna. 

Ahora, lo mismo para afectados:

In [13]:
afectados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2864 entries, 1 to 2864
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Muestra      2864 non-null   object
 1   Descripcion  2864 non-null   object
 2   Anio         2864 non-null   int64 
 3   Estado       2864 non-null   object
 4   Cantidad     2864 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 134.2+ KB


### Función head

Con la función head podemos hacernos una idea de cómo son los datos, nos muestra los primeros 5 datos del dataset con los encabezados de cada atributo. Esto es útil para ver si los datos quedaron bien cargados o no (mejor mostrar unos pocos a mostrar todo el dataset completo). 

In [14]:
tipos.head()

Unnamed: 0,Muestra,Descripcion,Anio,TipoAccidente,Cantidad
1,Nacional,Nacional,2010,Atropello,8247
2,Nacional,Nacional,2011,Atropello,8339
3,Regional,XV Región Arica y Parinacota,2010,Atropello,115
4,Regional,XV Región Arica y Parinacota,2011,Atropello,159
5,Comunal,ARICA,2010,Atropello,115


### Función describe
La función describe aplica estadísticas a cada columna. En particular, indica el promedio, mediana, quantiles, valor máximo, mínimo, entre otros.

In [17]:
tipos.describe(include='all')

Unnamed: 0,Muestra,Descripcion,Anio,TipoAccidente,Cantidad
count,4296,4296,4296.0,4296,4296.0
unique,3,359,,6,
top,Comunal,Nacional,,Atropello,
freq,4104,12,,716,
mean,,,2010.5,,84.203911
std,,,0.500058,,835.751218
min,,,2010.0,,0.0
25%,,,2010.0,,1.0
50%,,,2010.5,,5.0
75%,,,2011.0,,20.0


In [19]:
afectados.describe(include='all')

Unnamed: 0,Muestra,Descripcion,Anio,Estado,Cantidad
count,2864,2864,2864.0,2864,2864.0
unique,3,358,,4,
top,Comunal,Nacional,,Muertos,
freq,2736,8,,716,
mean,,,2010.5,,115.583799
std,,,0.500087,,1220.347115
min,,,2010.0,,0.0
25%,,,2010.0,,3.0
50%,,,2010.5,,9.0
75%,,,2011.0,,32.0


Aunque también podemos hacer el muestreo por separado empleando las siguientes funciones:

In [20]:
tipos['Cantidad'].mean()

84.20391061452514

In [21]:
# desviacion estandar
tipos['Cantidad'].std()

835.751217553672

In [22]:
# minimo (maximo)
tipos['Cantidad'].min()

0

In [23]:
# mediana
tipos['Cantidad'].median()

5.0

In [29]:
# cuantiles, los valores que son mayores que una fracción $q$ de los datos
tipos['Cantidad'].quantile([0,0.25, 0.5, 0.75, 1])

0.00        0.0
0.25        1.0
0.50        5.0
0.75       20.0
1.00    31487.0
Name: Cantidad, dtype: float64

In [35]:
# diferencia entre cuartil 3 y cuartil 1  (Q3 - Q1), o cuantil 0.75 y cuantil 0.25

q1,q3 = tipos['Cantidad'].quantile([0.25,0.75]) 
q3-q1

19.0

### Consultas sobre data frames (proyección y filtro)

Para proyectar o seleccionar columnas de una tabla, usamos el nombre de la columna entre  [ ]. (Siempre emplearemos head para no alargar este manual).

In [36]:
# muestra sólo la columna Cantidad
# note que el resultado de esta operación es un Vector

tipos['Cantidad'].head()

1    8247
2    8339
3     115
4     159
5     115
Name: Cantidad, dtype: int64

In [39]:
# se puede seleccionar más de una columna

tipos[['Cantidad','TipoAccidente']]

Unnamed: 0,Cantidad,TipoAccidente
1,8247,Atropello
2,8339,Atropello
3,115,Atropello
4,159,Atropello
5,115,Atropello
...,...,...
4292,2,Otros
4293,1,Otros
4294,2,Otros
4295,5,Otros


Ahora, para filtrar filas, usamos la notación [columnas][filas].

In [41]:
# fila 3, columna 5
tipos['Cantidad'][5]

115

In [42]:
# Selecciona la fila 3 completa
# La función iloc se utiliza para seleccionar filas por índice. El índice 2 corresponde a la tercera fila
tipos.iloc[2, :]

Muestra                              Regional
Descripcion      XV Región Arica y Parinacota
Anio                                     2010
TipoAccidente                       Atropello
Cantidad                                  115
Name: 3, dtype: object

In [43]:
# Muestra los primeros 6 datos y las columnas seleccionadas
tipos[['Anio','TipoAccidente']][:6]

Unnamed: 0,Anio,TipoAccidente
1,2010,Atropello
2,2011,Atropello
3,2010,Atropello
4,2011,Atropello
5,2010,Atropello
6,2011,Atropello


Desde luego que podemos crear condiciones o filtros

In [46]:
# Para cada valor de la columna Anio, indica si es 2010 o no (mediante True y False)
afectados["Anio"] == 2010

1        True
2       False
3        True
4       False
5        True
        ...  
2860    False
2861     True
2862    False
2863     True
2864    False
Name: Anio, Length: 2864, dtype: bool

In [47]:
#ahora con el resultado anterior, selecciona solo las filas que son True en un nuevo dataframe
afectados[afectados["Anio"] == 2010] 

Unnamed: 0,Muestra,Descripcion,Anio,Estado,Cantidad
1,Nacional,Nacional,2010,Muertos,1595
3,Regional,XV Región Arica y Parinacota,2010,Muertos,28
5,Comunal,ARICA,2010,Muertos,24
7,Comunal,CAMARONES,2010,Muertos,2
9,Comunal,PUTRE,2010,Muertos,2
...,...,...,...,...,...
2855,Comunal,TALAGANTE,2010,Leves,279
2857,Comunal,EL MONTE,2010,Leves,86
2859,Comunal,ISLA DE MAIPO,2010,Leves,112
2861,Comunal,PADRE HURTADO,2010,Leves,98


In [48]:
# podemos contar los datos de accidentes del 2010 
afectados[afectados["Anio"] == 2010].count()

Muestra        1432
Descripcion    1432
Anio           1432
Estado         1432
Cantidad       1432
dtype: int64

Una función util para contar cuantos valores son NA en una columna, es la siguiente:

In [49]:
afectados['Anio'].isna().sum()

0

Para topas las columnas:

In [50]:
afectados.isna().sum()

Muestra        0
Descripcion    0
Anio           0
Estado         0
Cantidad       0
dtype: int64

Por ejemplo que muestre sólo los datos del 2011:

In [51]:
# Filtra los datos cuyo año es 2011 y muestra todas las columnas (notar que ahora no muestra TRUE/FALSE)
afectados[afectados["Anio"] == 2011].head()

Unnamed: 0,Muestra,Descripcion,Anio,Estado,Cantidad
2,Nacional,Nacional,2011,Muertos,1573
4,Regional,XV Región Arica y Parinacota,2011,Muertos,33
6,Comunal,ARICA,2011,Muertos,29
8,Comunal,CAMARONES,2011,Muertos,2
10,Comunal,PUTRE,2011,Muertos,2


In [52]:
# Filtramos que la columna Anio sea 2011 y además que la columna Muestra sea Regional. Se muestran todas las columnas. 
afectados[(afectados["Anio"] == 2011) & (afectados["Muestra"] == "Regional")].head()

Unnamed: 0,Muestra,Descripcion,Anio,Estado,Cantidad
4,Regional,XV Región Arica y Parinacota,2011,Muertos,33
14,Regional,I Región de Tarapacá,2011,Muertos,56
30,Regional,II Región de Antofagasta,2011,Muertos,87
50,Regional,III Región de Atacama,2011,Muertos,53
70,Regional,IV Región de Coquimbo,2011,Muertos,73


In [53]:
# Filtramos que la columna Anio sea 2011 y además que la columna Muestra sea Regional. Seleccionamos la Descripcion y la Cantidad
afectados[(afectados["Anio"] == 2011) & (afectados["Muestra"] == "Regional")][["Descripcion", "Cantidad"]].head()

Unnamed: 0,Descripcion,Cantidad
4,XV Región Arica y Parinacota,33
14,I Región de Tarapacá,56
30,II Región de Antofagasta,87
50,III Región de Atacama,53
70,IV Región de Coquimbo,73


### Operaciones sobre dataframe

#### Aggregate
Para saber cuántos muertos por accidentes hubo en todo Chile podemos emplear aggregate. Esto es similar a GROUP BY en SQL.

In [57]:
# Aplica la función suma (sum) a la columna Cantidad en base a los datos de Estado
afectados.groupby('Estado')['Cantidad'].sum().reset_index()

Unnamed: 0,Estado,Cantidad
0,Graves,40869
1,Leves,254334
2,MenosGraves,26325
3,Muertos,9504


Esta función hará grupos dentro de afectados, donde cada grupo estará asociado al mismo valor de Estado, y estará compuesto de todos los valores dados por Cantidad. A cada uno de estos grupos aplicará la función FUN, que en este caso es sum. Es decir, entregará la suma de las cantidades agrupadas por cada estado.

También podríamos ser más especificos y sumar la columna cantidad agrupando por Estado y Anio.

In [58]:
afectados.groupby(['Estado', 'Anio'])['Cantidad'].sum().reset_index()

Unnamed: 0,Estado,Anio,Cantidad
0,Graves,2010,20697
1,Graves,2011,20172
2,Leves,2010,125232
3,Leves,2011,129102
4,MenosGraves,2010,12963
5,MenosGraves,2011,13362
6,Muertos,2010,4785
7,Muertos,2011,4719


#### Unique
Con unique podemos obtener el conjunto de datos (sin repetir) de una columna.

In [59]:
tipos['TipoAccidente'].unique()

array(['Atropello', 'Caida', 'Colision', 'Choque', 'Volcadura', 'Otros'],
      dtype=object)

#### Sort
En algún momento vamos a requerir ordenar las columnas en base a uno o más atributos. Por ejemplo:

In [60]:
# Tomar los primeros 10 datos de afectados
afectados_reducido = afectados.head(10)

# Ordenar ascendentemente por la columna 'Cantidad'
afectados_reducido.sort_values(by='Cantidad')


Unnamed: 0,Muestra,Descripcion,Anio,Estado,Cantidad
7,Comunal,CAMARONES,2010,Muertos,2
8,Comunal,CAMARONES,2011,Muertos,2
9,Comunal,PUTRE,2010,Muertos,2
10,Comunal,PUTRE,2011,Muertos,2
5,Comunal,ARICA,2010,Muertos,24
3,Regional,XV Región Arica y Parinacota,2010,Muertos,28
6,Comunal,ARICA,2011,Muertos,29
4,Regional,XV Región Arica y Parinacota,2011,Muertos,33
2,Nacional,Nacional,2011,Muertos,1573
1,Nacional,Nacional,2010,Muertos,1595


In [61]:
# Ordenar descendente la columna Cantidad
afectados_reducido.sort_values(by='Cantidad', ascending=False)

Unnamed: 0,Muestra,Descripcion,Anio,Estado,Cantidad
1,Nacional,Nacional,2010,Muertos,1595
2,Nacional,Nacional,2011,Muertos,1573
4,Regional,XV Región Arica y Parinacota,2011,Muertos,33
6,Comunal,ARICA,2011,Muertos,29
3,Regional,XV Región Arica y Parinacota,2010,Muertos,28
5,Comunal,ARICA,2010,Muertos,24
7,Comunal,CAMARONES,2010,Muertos,2
8,Comunal,CAMARONES,2011,Muertos,2
9,Comunal,PUTRE,2010,Muertos,2
10,Comunal,PUTRE,2011,Muertos,2


#### Merge
al como lo vimos al principio de este documento, para crear un nuevo data frame se usa pd.frame(). Por ejemplo:

In [63]:

# DataFrame 'a'
a = pd.DataFrame({'x1': range(9), 'y1': [10, 20, 40, 60, 80, 100, 120, 140, 160]})

# DataFrame 'b'
b = pd.DataFrame({'x1': [1, 2, 4, 6, 8, 10], 'y2': [0, 3, 5, 7, 9, 11]})

a


Unnamed: 0,x1,y1
0,0,10
1,1,20
2,2,40
3,3,60
4,4,80
5,5,100
6,6,120
7,7,140
8,8,160


In [64]:
b

Unnamed: 0,x1,y2
0,1,0
1,2,3
2,4,5
3,6,7
4,8,9
5,10,11


In [65]:
# Inner join 
pd.merge(a, b, on='x1')

Unnamed: 0,x1,y1,y2
0,1,20,0
1,2,40,3
2,4,80,5
3,6,120,7
4,8,160,9


In [66]:
# Full outer join
pd.merge(a, b, on='x1', how='outer')

Unnamed: 0,x1,y1,y2
0,0,10.0,
1,1,20.0,0.0
2,2,40.0,3.0
3,3,60.0,
4,4,80.0,5.0
5,5,100.0,
6,6,120.0,7.0
7,7,140.0,
8,8,160.0,9.0
9,10,,11.0


In [67]:
# Left outer join
pd.merge(a, b, on='x1', how='left')

Unnamed: 0,x1,y1,y2
0,0,10,
1,1,20,0.0
2,2,40,3.0
3,3,60,
4,4,80,5.0
5,5,100,
6,6,120,7.0
7,7,140,
8,8,160,9.0


In [68]:
# Right outer join
pd.merge(a, b, on='x1', how='right')

Unnamed: 0,x1,y1,y2
0,1,20.0,0
1,2,40.0,3
2,4,80.0,5
3,6,120.0,7
4,8,160.0,9
5,10,,11


#### Sumar filas y columnas

Para sumar toda las filas de un data frame:

In [69]:
df = pd.DataFrame({'x1': range(1, 11), 'y1': range(1, 11)})
df

Unnamed: 0,x1,y1
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8
8,9,9
9,10,10


In [70]:
df.sum(axis=1)

0     2
1     4
2     6
3     8
4    10
5    12
6    14
7    16
8    18
9    20
dtype: int64

In [71]:
# suma las filas cuyo x1 es mayor a 5
df[df['x1'] > 5].sum(axis=1)

5    12
6    14
7    16
8    18
9    20
dtype: int64

Para sumar las columnas de un data frame:

In [72]:
df.sum(axis=0)

x1    55
y1    55
dtype: int64