# **Análisis exporatorio y estadística**

# AE12.1 - AYUDANTIA Visualización en Pandas


## <font color='blue'>**Graficando a partir de Pandas**</font>
Pandas permite generar de forma directa gráficos mediante la función `plot()` aplicada indistintamente a series o dataframes. La función es una API que utiliza distintos _backends_ bajo el capó. Estos _backends_ se especifican con la opción `plotting.backend`; por defecto usa la opción `matplotlib`. Esta función crea directamente la gráfica del conjunto de datos.

Posee dos formas idiomáticas para ejecutarse:

1. Uso del parámetro `kind` de la función `plot`: El tipo de gráfico que desea representar se puede especificar pasando el parámetro `kind` a la función `plot`. El valores posibles para el parámetro `kind` son:
- `line` : gráfico de líneas (por defecto)
- `bar` : barras verticales
- `barh` : barras horizontales
- `hist` : histograma
- `box` : gráfico boxplot (caja y bigotes)
- `kde` : Kernel Density Estimation
- `density` : lo mimo que `kde`
- `area` : gráfico de áreas
- `pie` : grñafico de torta
- `scatter` : gráfico de dispersión
- `hexbin` : gráfico de hexágonos (muy útiles como alternativa a `scatter` con datos muy densos.

```python
df.plot(kind='area')
```

2. Llamar directamente al tipo de gráfico desde la función de gráfico: puede llamar directamente al tipo de gráfico encadenando la función de gráfico con el nombre del gráfico.

```python
df.plot.area()
```



## <font color='blue'>__Analizando y graficando datos migratorios__</font>


El conjunto de datos que utilizaremos, contiene datos anuales sobre los flujos de inmigrantes internacionales hacia Canadá, registrados por los países de origen/destino. Los datos presentan entradas y salidas según el lugar de nacimiento, la ciudadanía o el lugar de residencia anterior / siguiente, tanto para extranjeros como para nacionales. La versión actual presenta datos pertenecientes a 45 países. Por simplicidad, los datos de inmigración de Canadá se han extraído.

In [None]:
# Cargue aquí sus datos
import pandas as pd
df_canada = pd.read_excel('https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DV0101EN/labs/Data_Files/Canada.xlsx',
                       sheet_name='Canada by Citizenship',
                       skiprows=range(20),
                       skipfooter=2)

Veamos que tenemos

In [None]:
display(df_canada)

Eliminaremos algunas columnas que no necesitaremos

In [None]:
df_canada.drop(['AREA','REG','DEV','Type','Coverage'], axis=1, inplace=True)
df_canada.head(2)

Renombramos otras para mayor claridad y reindexamos por la columna`Pais`

In [None]:
df_canada.rename(columns={'OdName':'Pais', 'AreaName':'Continente', 'RegName':'Region'}, inplace=True)
df_canada.set_index('Pais', inplace=True)
df_canada.head(5)

## <font color='blue'>__Gráficos de barras__ </font>
Un diagrama de barras es una forma de representar datos donde la *longitud* de las barras representa la magnitud / tamaño de la característica / variable. Los gráficos de barras generalmente representan variables numéricas y categóricas agrupadas en intervalos.

Para crear un diagrama de barras (__bar plot__), podemos pasar uno de dos argumentos a través del parámetro `kind` en el método `plot()`:

* `kind=bar` Crea verticales.
* `kind=barh` Crea horizontales.

In [None]:
# Paso 1: Obtengamos los datos.
years = list(range(1980, 2014))

df_iceland = df_canada.loc['Iceland', years]
df_iceland.plot(kind='bar', figsize=(10, 6))

plt.xlabel('Año')
plt.ylabel('Número de Inmigrantes')
plt.title('Inmigrantes desde Islandia a Canadá desde 1980 a 2013')

plt.show()

In [None]:
df_iceland.plot(kind='bar', figsize=(10, 6), rot=90) # girar los ticks 90 grados

plt.xlabel('Año')
plt.ylabel('Número de Inmigrantes')
plt.title('Inmigrantes desde Islandia a Canadá desde  1980 a 2013')

# Annotate arrow
plt.annotate('',                      # s: str. Lo dejará en blanco si no hay texto
             xy=(32, 70),             # coloque la punta de la flecha en el punto (año 2012, número de inmigrantes 70)
             xytext=(28, 20),         # coloque la base de la flecha en el punto (año 2008, número de inmigrantes 20)
             xycoords='data',         # utilizará el sistema de coordenadas del objeto que se anotará
             arrowprops=dict(arrowstyle='->', connectionstyle='arc3', color='blue', lw=2)
            )

plt.show()

In [None]:
df_iceland.plot(kind='bar', figsize=(10, 6), rot=90)

plt.xlabel('Año')
plt.ylabel('Número de Inmigrantes')
plt.title('Inmigrantes desde Islandia a Canadá desde 1980 a 2013')

plt.annotate('',                      # s: str. Lo dejará en blanco si no hay texto
             xy=(32, 70),             # coloque la punta de la flecha en el punto (año 2012, número de inmigrantes 70)
             xytext=(28, 20),         # coloque la base de la flecha en el punto (año 2008, número de inmigrantes 20)
             xycoords='data',         # utilizará el sistema de coordenadas del objeto que se anotará
             arrowprops=dict(arrowstyle='->', connectionstyle='arc3', color='blue', lw=2)
            )

# Annotate Text
plt.annotate('2008 - 2011 Crisis financiera', # Texto para desplegar
             xy=(28, 30),                    # comenzar el texto en un punto (año 2008, número de inmigrantes 30)
             rotation=72.5,                  # basado en prueba y error para que coincida con la flecha
             va='bottom',                    # quiere que el texto esté alineado verticalmente en la parte inferior
             ha='left',                      # desea que el texto esté alineado horizontalmente a la izquierda.
            )

plt.show()

##<font color='blue'>__Ejercicios__</font>

### <font color='green'>**Actividad 1**</font>

Realice el mismo análisis anterior pero esta vez con los datos de `Chile`.
Desarrolle un gráfico de barras para el período completo, analícelo y añádale una anotación pertinente.

In [None]:
# Tu código aquí ...

# Obtengamos los datos de Chile.
df_chile = df_canada.loc['Chile', years]


<font color='green'>Fin actividad 1</font>

### <font color='green'>**Actividad 2**</font>

**Pregunta:** cree un diagrama de barras *horizontal* que muestre el número *total* de inmigrantes a Canadá desde los 20 países principales, para el período 1980-2013. Incluya el recuento total de inmigrantes.



In [None]:
# Tu código aquí ...


<font color='green'>Fin Actividad 2</font>

## <font color='blue'>__Gráficos de Torta__</font>

Un "Grafico de torta" (__Pie Chart__) es un gráfico que muestra proporciones numéricas dividiendo un círculo (o gráfico circular) en sectores proporcionales. Lo más probable es que ya esté familiarizado con los gráficos circulares, ya que es ampliamente utilizado en negocios y medios. Podemos crear gráficos circulares en Matplotlib pasando la palabra clave `kind = pie`.

Usemos un gráfico circular para explorar la proporción (porcentaje) de nuevos inmigrantes agrupados por continentes para todo el período comprendido entre 1980 y 2013.

In [None]:
# Agrupemos por continentes y aplicamos suma. En el groupby estamos realizando el split por continente.
df_continents = df_canada.groupby('Continente', axis=0).sum()

# Nota: El resultado del metodo groupby es un objeto de tipo `groupby'.
# no podemos usarlo hasta que apliquemos una función (por ejemplo, suma ())
print(type(df_canada.groupby('Continente', axis=0)))

In [None]:
df_continents.head()

In [None]:
df_continents['Total'].plot(kind='pie',
                            figsize=(12, 13),
                            autopct='%1.2f%%', # Incorpora el porcentage.
                            startangle=90,     # Empieza con angulo 90° (Africa)
                            shadow=False,      # agregar sombra
                            )

plt.title('Inmigración a Canadá por continente en 2013')
plt.axis('equal') # Configura el gráfico para que parezca un círculo.

plt.show()

### <font color='green'>**Actividad 3**</font>

**Pregunta:** Usando un gráfico circular, explore la proporción (porcentaje) de nuevos inmigrantes agrupados por continentes en el año 2013.



In [None]:
# Tu código aquí ...


<font color='green'>Fin actividad 3</font>

## <font color='blue'>__Box Plots__</font>

Un "Box plot" es una forma de representar estadísticamente la *distribución* de los datos a través de cinco dimensiones principales:

- **Minimun:** Número más pequeño en el conjunto de datos.
- **First quartile:** Número medio entre el `mínimo` y la` mediana`.
- **Second quartile (Median):** Número medio del conjunto de datos (ordenado).
- **Third quartile:** Número medio entre `mediana` y` máximo`.
- **Maximum:** Número más alto en el conjunto de datos.

<img src="https://drive.google.com/uc?export=view&id=1xhOQdoqcI6V2vSJoxB1_tIWq9OFAkNq6" width="500">

In [None]:
# La siguiente instrucción nos entregará una Serie de Pandas
df_canada.loc['Japan', years].head()

In [None]:
# Veamos su 'type'
df_japan = df_canada.loc['Japan', years].head()
type(df_japan)

In [None]:
# Para obtener un dataframe, agrega [] alrededor de 'Japan'.
df_japan = df_canada.loc[['Japan'], years].transpose()
df_japan.head()

In [None]:
df_japan.plot(kind='box', figsize=(8, 6))

plt.title('Box plot de inmigración japonesa entre 1980 - 2013')
plt.ylabel('Número de Inmigrantes')

plt.show()

In [None]:
df_china_india = df_canada.loc[['China','India'], years].transpose()
df_china_india.plot(kind='box', figsize=(8, 6))

plt.title('Box plot de inmigración China e India entre 1980 - 2013')
plt.ylabel('Número de Inmigrantes')

plt.show()

In [None]:
fig = plt.figure() # Crea la  figura

ax0 = fig.add_subplot(1, 2, 1) # agrega un subgrafico subplot 1  (1 row, 2 columns, primer grafico))
ax1 = fig.add_subplot(1, 2, 2) # agrega un subgrafico subplot 2 (1 fila, 2 columnas, segundo grafico plot).

# Sub grafico 1: Box plot
df_china_india.plot(kind='box', color='blue', vert=False, figsize=(20, 6), ax=ax0) # add to subplot 1
ax0.set_title('Box Plots de inmigrantes de China e India (1980 - 2013)')
ax0.set_xlabel('Número de Inmigrantes')
ax0.set_ylabel('Países')

# Sub grafico 2: Line plot
df_china_india.plot(kind='line', figsize=(20, 6), ax=ax1) # add to subplot 2
ax1.set_title ('Gráfico de líneas de inmigrantes de China e India (1980 - 2013)')
ax1.set_ylabel('Número de inmigrantes')
ax1.set_xlabel('Años')

plt.show()

### <font color='green'>**Actividad 4**</font>

**Pregunta:** Cree un box plot para visualizar la distribución de los 15 primeros paises agrupados por décadas `1980s`, `1990s`, y `2000s`.



In [None]:
# Tu código aquí ...


<font color='green'>Fin Actividad 4</font>