<h1 align="center">Programación &#8212; PRE2013A45</h1>
<h3 align="center">Docente: Andrés Quintero Zea, PhD.</h3>
<h3 align="center">e-mail: andres.quintero27@eia.edu.co</h3>
<h3 align="center">Semana 12: Ecosistema Python - Pandas</h3>

# 1. Objetos de `Pandas`

En un nivel muy básico, los objetos de `Pandas` se pueden considerar como versiones mejoradas de matrices estructuradas de `NumPy` en las que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros.
Como veremos a lo largo de esta clase, `Pandas` proporciona una gran cantidad de herramientas, métodos y funcionalidades útiles además de las estructuras de datos básicas, pero casi todo lo que sigue requerirá una comprensión de cuáles son estas estructuras.
Por lo tanto, antes de continuar, presentemos estas tres estructuras de datos fundamentales de Pandas: `Series`, `DataFrame` e `Index`.

Comenzaremos nuestras sesiones de código con las importaciones estándar de `NumPy` y `Pandas`:

In [None]:
import numpy as np
import pandas as pd

## 1.2 El objeto `Series`

Un objeto `Series` de Pandas es una matriz unidimensional de datos indexados. 
La documentación completa sobre `DataFrame` puede ser consultada en la página web de [Pandas](https://pandas.pydata.org/docs/reference/series.html)
Se puede crear a partir de una lista o matriz de la siguiente manera:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

Como vemos en la salida, `Series` envuelve tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los atributos `values` e `index`. Los valores son simplemente una matriz NumPy:

In [None]:
data.values

The ``index`` is an array-like object of type ``pd.Index``, which we'll discuss in more detail momentarily.

In [None]:
data.index

Al igual que con una matriz NumPy, los valores se pueden acceder a través de indexación:

In [None]:
data[1]

In [None]:
data[1:3]

Sin embargo, la `Series` de Pandas es mucho más general y flexible que la matriz NumPy unidimensional que emula.

### 1.2.1 ``Series`` como matriz NumPy generalizada

Por lo que hemos visto hasta ahora, puede parecer que el objeto ``Series`` es básicamente intercambiable con una matriz NumPy unidimensional.
La diferencia esencial es la presencia del índice: mientras que Numpy Array tiene un índice entero *implícitamente definido* que se usa para acceder a los valores, Pandas ``Series`` tiene un índice *explícitamente definido* asociado con los valores.

Esta definición de índice explícito le da al objeto ``Series`` capacidades adicionales. Por ejemplo, el índice no necesita ser un número entero, pero puede consistir en valores de cualquier tipo deseado.
Por ejemplo, si lo deseamos, podemos usar cadenas como índice:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

Incluso podemos usar índices no contiguos o no secuenciales:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

In [None]:
data[5]

### 1.2.2 `Series`como diccionario especializado

De esta forma, puedes pensar en una ``Serie`` de Pandas un poco como una especialización de un diccionario de Python. Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios y una ``Serie`` es una estructura que asigna claves tipificadas a un conjunto de valores tipificados.

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

In [None]:
population['California']

Sin embargo, a diferencia de un diccionario, ``Series`` también admite operaciones de estilo de matriz, como el corte:

In [None]:
population['California':'Texas']

## 1.3 El objeto `DataFrame`

La siguiente estructura fundamental en Pandas es ``DataFrame``. Al igual que el objeto ``Series`` discutido en la sección anterior, ``DataFrame`` se puede considerar como una generalización de una matriz NumPy o como una especialización de un diccionario de Python.
Ahora vamos a echar un vistazo a cada una de estas perspectivas.
La documentación completa sobre `DataFrame` puede ser consultada en la página web de [Pandas](https://pandas.pydata.org/docs/reference/frame.html)

### 1.3.1 DataFrame como una matriz NumPy generalizada
Si una ``Serie`` es un análogo de una matriz unidimensional con índices flexibles, un ``DataFrame`` es un análogo de una matriz bidimensional con índices de fila flexibles y nombres de columna flexibles.
Así como podría pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, puede pensar en un ``DataFrame`` como una secuencia de objetos ``Series`` alineados.
Aquí, por "alineados" queremos decir que comparten el mismo índice.

Para demostrar esto, primero construyamos una nueva ``Serie`` que enumere el área de cada uno de los cinco estados discutidos en la sección anterior:

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

Ahora que tenemos esto junto con la serie `population` de antes, podemos usar un diccionario para construir un solo objeto bidimensional que contenga esta información:

In [None]:
states = pd.DataFrame({'Population': population,
                       'Area': area})
states

Al igual que el objeto ``Series``, ``DataFrame`` tiene un atributo ``index`` que da acceso a las etiquetas de índice:

In [None]:
states.index

Additionally, the ``DataFrame`` has a ``columns`` attribute, which is an ``Index`` object holding the column labels:

In [None]:
states.columns

Por lo tanto, ``DataFrame`` se puede considerar como una generalización de una matriz NumPy bidimensional, donde tanto las filas como las columnas tienen un índice generalizado para acceder a los datos.

### 1.3.2 DataFrame como diccionario especializado

De manera similar, también podemos pensar en un ``DataFrame`` como una especialización de un diccionario.
Donde un diccionario asigna una clave a un valor, un ``DataFrame`` asigna un nombre de columna a una ``Serie`` de datos de columna.
Por ejemplo, pedir el atributo ``'Area'`` devuelve el objeto ``Series`` que contiene las áreas que vimos anteriormente:

In [None]:
states['Area']

Observe el posible punto de confusión aquí: en una matriz NumPy de dos dimensiones, ``data[0]`` devolverá la primera *fila*. Para un ``DataFrame``, ``data['col0']`` devolverá la primera *columna*.
Debido a esto, probablemente sea mejor pensar en ``DataFrame``s como diccionarios generalizados en lugar de arreglos generalizados, aunque ambas formas de ver la situación pueden ser útiles.

### 1.3.3 Construcción de objetos DataFrame

Un ``DataFrame`` de Pandas se puede construir de varias formas. Aquí daremos varios ejemplos.

#### Desde un solo objeto Series

Un ``DataFrame`` es una colección de objetos ``Series`` y un ``DataFrame`` de una sola columna se puede construir a partir de una única ``Serie``:

In [None]:
pd.DataFrame(population, columns=['Population'])

#### De una lista de diccionarios

Cualquier lista de diccionarios se puede convertir en un ``DataFrame``. Usaremos una lista simple de comprensión para crear algunos datos:

In [None]:
data = [{'x': i, 'x^2': i**2}
        for i in range(1,6)]
pd.DataFrame(data)

Incluso si faltan algunas claves en el diccionario, Pandas las completará con valores ``NaN`` (es decir, "no es un número"):

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

#### De un diccionario de objetos Series

Como vimos antes, un ``DataFrame`` también se puede construir a partir de un diccionario de objetos ``Series``:

In [None]:
pd.DataFrame({'Population': population,
              'Area': area})

#### A partir de una matriz NumPy bidimensional

Dada una matriz bidimensional de datos, podemos crear un ``DataFrame`` con cualquier nombre de columna e índice especificado.
Si se omite, se utilizará un índice entero para cada uno:

In [None]:
pd.DataFrame(np.random.rand(3, 2).round(3),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

## 1.4 El objeto `Index`

Hemos visto aquí que tanto los objetos ``Series`` como ``DataFrame`` contienen un *índice* explícito que permite hacer referencia y modificar datos.
Este objeto ``Índice`` es una estructura interesante en sí misma y se puede considerar como una *matriz inmutable* o como un *conjunto ordenado* (técnicamente, un conjunto múltiple, ya que los objetos ``Index`` pueden contener valores repetidos).
La documentación completa sobre `DataFrame` puede ser consultada en la página web de [Pandas](https://pandas.pydata.org/docs/reference/indexing.html)

Como ejemplo simple, construyamos un ``Index`` a partir de una lista de enteros:

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

### 1.4.1 Index como matriz inmutable

Un objeto ``Index`` en muchos sentidos funciona como una matriz. Por ejemplo, podemos usar la notación de indexación estándar de Python para recuperar valores o segmentos:

In [None]:
ind[1]

In [None]:
ind[::2]

Los objetos ``Index`` también tienen muchos de los atributos familiares de las matrices NumPy:

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

Una diferencia entre los objetos ``Index`` y las matrices NumPy es que los índices son inmutables, es decir, no se pueden modificar por los medios normales:

In [None]:
ind[1] = 0

Esta inmutabilidad hace que sea más seguro compartir índices entre múltiples ``DataFrame`` y arreglos, sin la posibilidad de efectos secundarios por la modificación inadvertida del índice.

### 1.4.2 Index como conjunto ordenado

Los objetos de Pandas están diseñados para facilitar operaciones como las uniones entre conjuntos de datos, que dependen de muchos aspectos de la aritmética de conjuntos.
El objeto ``Index`` sigue muchas de las convenciones utilizadas por la estructura de datos ``set`` de Python, de modo que las uniones, intersecciones, diferencias y otras combinaciones se pueden calcular de una manera familiar:

In [None]:
idx1 = pd.Index([1, 2, 3, 4])
idx2 = pd.Index([3, 4, 5, 6])

In [None]:
idx1.intersection(idx2)  # intersección

In [None]:
idx1.union(idx2)  # union

# 2. Indexación y selección de datos

En el módulo anterior estudiamos métodos y herramientas para acceder, establecer y modificar valores en matrices NumPy.
Estos incluían indexación (p. ej., ``arr[2, 1]``), segmentación (p. ej., ``arr[:, 1:5]``), enmascaramiento (p. ej., ``arr[arr > 0]`` ), indexación elegante (p. ej., ``arr[0, [1, 5]]``) y combinaciones de los mismos (p. ej., ``arr[:, [1, 5]]``).
Aquí veremos medios similares para acceder y modificar valores en los objetos ``Series`` y ``DataFrame`` de Pandas.
Si ha utilizado los patrones NumPy, los patrones correspondientes en Pandas le resultarán muy familiares, aunque hay algunas peculiaridades que debe tener en cuenta.

Comenzaremos con el caso simple del objeto ``Series`` unidimensional, y luego pasaremos al objeto ``DataFrame`` bidimensional más complicado.

## 2.1 Selección de datos en `Series`

Como vimos en la sección anterior, un objeto ``Series`` actúa en muchos aspectos como una matriz NumPy unidimensional y en muchos aspectos como un diccionario estándar de Python.
Si tenemos en cuenta estas dos analogías superpuestas, nos ayudará a comprender los patrones de indexación y selección de datos en estas matrices.

### 2.1.1 Series como diccionario

Como un diccionario, el objeto ``Series`` proporciona un mapeo de una colección de claves a una colección de valores:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

También podemos usar expresiones y métodos de Python similares a un diccionario para examinar las claves/índices y valores:

In [None]:
'a' in data

In [None]:
data.keys()

In [None]:
list(data.items())

Los objetos ``Series`` pueden incluso modificarse con una sintaxis similar a la de un diccionario.
Así como puede extender un diccionario asignando una nueva clave, puede extender una ``Serie`` asignando un nuevo valor de índice:

In [None]:
data['e'] = 1.25
data

### 2.1.2 Series como matriz unidimensional

Una ``Series`` se basa en esta interfaz similar a un diccionario y proporciona una selección de elementos de estilo de matriz a través de los mismos mecanismos básicos que las matrices NumPy, es decir, *segmentos*, *enmascaramiento* e *indexación elegante*.
Ejemplos de estos son los siguientes:

In [None]:
data['a':'c']

In [None]:
data[0:2]

In [None]:
data[(data > 0.3) & (data < 0.8)]

In [None]:
data[['a', 'e']]

Entre estos, el corte puede ser la fuente de mayor confusión.
Tenga en cuenta que al dividir con un índice explícito (es decir, ``data['a':'c']``), el índice final está *incluido* en el segmento, mientras que al dividir con un índice implícito (es decir, `` data[0:2]``), el índice final se *excluye* del segmento.

### 2.1.3 Indexadores: `loc` e `iloc`

Estas convenciones de segmentación e indexación pueden ser una fuente de confusión. Por ejemplo, si su objeto ``Series`` tiene un índice entero explícito, una operación de indexación como ``data[1]`` usará los índices explícitos, mientras que una operación de división como ``data[1:3]`` utilizará el índice implícito de estilo Python.

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
data[1]

In [None]:
data[1:3]

Debido a esta posible confusión en el caso de los índices enteros, Pandas proporciona algunos atributos especiales de *indexador* que exponen explícitamente ciertos esquemas de indexación.
Estos no son métodos funcionales, sino atributos que exponen una interfaz de corte particular a los datos en el objeto ``Series``.

Primero, el atributo ``loc`` permite la indexación y el corte que siempre hace referencia al índice explícito:

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

El atributo ``iloc`` permite la indexación y el corte que siempre hace referencia al índice implícito de estilo Python:

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

Un principio rector del código de Python es que "explícito es mejor que implícito". La naturaleza explícita de ``loc`` y ``iloc`` los hace muy útiles para mantener un código limpio y legible; especialmente en el caso de índices enteros, recomiendo usarlos para hacer que el código sea más fácil de leer y comprender, y para evitar errores sutiles debido a la convención mixta de indexación/corte.

## 2.2 Selección de datos en DataFrame

Recuerde que un ``DataFrame`` actúa en muchos aspectos como una matriz bidimensional y en otros aspectos como un diccionario de estructuras ``Series`` que comparten el mismo índice.
Estas analogías pueden ser útiles para tener en cuenta a medida que exploramos la selección de datos dentro de esta estructura.

### 2.2.1 DataFrame como diccionario

La primera analogía que consideraremos es ``DataFrame`` como un diccionario de objetos ``Series`` relacionados.
Volvamos a nuestro ejemplo de áreas y poblaciones de estados:

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Se puede acceder a las ``Series`` individuales que componen las columnas del ``DataFrame`` a través de la indexación de estilo de diccionario del nombre de la columna:

In [None]:
data['area']

De manera equivalente, podemos usar el acceso de estilo de atributo con nombres de columna que son cadenas:

In [None]:
data.area

Este acceso a las columnas a través de un atributo en realidad accede exactamente al mismo objeto que el acceso de estilo de diccionario:

In [None]:
data.area is data['area']

Aunque esta es una abreviatura útil, ¡tenga en cuenta que no funciona para todos los casos!. Por ejemplo, si los nombres de las columnas no son cadenas o si los nombres de las columnas entran en conflicto con los métodos de ``DataFrame``, este acceso de estilo de atributo no es posible.
Por ejemplo, ``DataFrame`` tiene un método ``pop()``, por lo que ``data.pop`` apuntará a esto en lugar de a la columna ``"pop"``:

In [None]:
data.pop is data['pop']

En particular, debe evitar la tentación de intentar la asignación de columnas a través de un atributo (es decir, use ``data['pop'] = z`` en lugar de ``data.pop = z``).

Al igual que con los objetos ``Series`` discutidos anteriormente, esta sintaxis de estilo diccionario también se puede usar para modificar el objeto, en este caso agregando una nueva columna:

In [None]:
data['density'] = data['pop'] / data['area']
data

### 2.2.2 DataFrame como matriz bidimensional

Como se mencionó anteriormente, también podemos ver el ``DataFrame`` como una matriz bidimensional mejorada.
Podemos examinar la matriz de datos subyacente sin procesar usando el atributo ``values``:

In [None]:
data.values

Con esta imagen en mente, se pueden realizar muchas observaciones similares a arreglos familiares en el mismo ``DataFrame``.
Por ejemplo, podemos transponer el ``DataFrame`` completo para intercambiar filas y columnas:

In [None]:
data.T

Sin embargo, cuando se trata de la indexación de objetos ``DataFrame``, está claro que la indexación de columnas al estilo de un diccionario impide nuestra capacidad de tratarlo simplemente como una matriz NumPy.
En particular, pasar un solo índice a una matriz accede a una fila:

In [None]:
data.values[0]

y pasar un solo índice a un ``DataFrame`` accede a una columna:

In [None]:
data['area']

Por lo tanto, para la indexación de estilo de matriz, necesitamos otra convención. Aquí Pandas vuelve a utilizar los indexadores ``loc``, ``iloc`` y ``ix`` mencionados anteriormente.
Usando el indexador ``iloc`` podemos indexar la matriz subyacente como si fuera una matriz NumPy simple (usando el índice implícito de estilo Python), pero el índice ``DataFrame`` y las etiquetas de columna se mantienen en el resultado:

In [None]:
data.iloc[:3, :2]

De manera similar, usando el indexador ``loc`` podemos indexar los datos subyacentes en un estilo similar a una matriz pero usando el índice explícito y los nombres de las columnas:

In [None]:
data.loc[:'Illinois', :'pop']

Cualquiera de los patrones familiares de acceso a datos de estilo NumPy se puede utilizar dentro de estos indexadores.
Por ejemplo, en el indexador ``loc`` podemos combinar el enmascaramiento y la indexación elegante como se muestra a continuación:

In [None]:
data.loc[data.density > 100, ['pop', 'density']]

Cualquiera de estas convenciones de indexación también se puede utilizar para establecer o modificar valores; esto se hace de la manera estándar a la que podría estar acostumbrado al trabajar con NumPy:

In [None]:
data.iloc[0, 2] = 90
data

Para aumentar su fluidez en la manipulación de datos de Pandas, le sugiero que pase un tiempo con un ``DataFrame`` simple y explore los tipos de indexación, corte, enmascaramiento e indexación elegante que permiten estos diversos enfoques de indexación.

### 2.2.3 Convenciones de indexación adicionales

Hay un par de convenciones de indexación adicionales que pueden parecer contrarias a la discusión anterior, pero que pueden ser muy útiles en la práctica.
Primero, mientras que *indexar* se refiere a columnas, *cortar* se refiere a filas:

In [None]:
data['Florida':'Illinois']

Dichos segmentos también pueden referirse a filas por número en lugar de por índice:

In [None]:
data[1:3]

De manera similar, las operaciones de enmascaramiento directo también se interpretan por filas en lugar de por columnas:

In [None]:
data[data.density > 100]

Estas dos convenciones son sintácticamente similares a las de una matriz NumPy, y aunque es posible que no encajen con precisión en el molde de las convenciones de Pandas, son bastante útiles en la práctica.

# 3. Carga de datos a partir de archivos
Pandas puede leer archivos de muchos tipos, como lo son <tt>csv</tt>, <tt>json</tt>, <tt>xls</tt> entre otros. Para leer un archivo siempre iniciamos con : `pd.read_filetype` 

In [None]:
import pandas as pd
pd.set_option('display.max_rows', None) 

# Lectura de datos desde archivo CSV
df = pd.read_csv('./Files/primary_results.csv',sep=',')

In [None]:
df.head()

**En la siguiente ejecución se puede generar una excepción, que se soluciona siguiendo los pasos descritos en la siguiente [página](https://bobbyhadz.com/blog/python-no-module-named-openpyxl)**. Además, puede tomar mucho tiempo cargar el archivo de Excel, debido a su tamaño, esta es una de las razones por las que las bases de datos se comparten principalmente en formato CSV.

In [None]:
# Lectura de datos desde archivo XLSX
df_excel = pd.read_excel('./Files/fallecidos_covid.xlsx')

In [None]:
# head() -> me muestra los 5 primeros registros de mi df, si quiero visualizar otra cantidad la debo especificar
df_excel.head(2)

## 3.1 Exploración de la data

La exploración de datos es la etapa donde obtenemos informacion sobre la data cargada, información como: cantidad de registros, visualizar registros de la data, cantidad de columnas, tipos de datos de las columnas, nombre de columnas, etc

In [None]:
df = pd.read_csv('./Files/primary_results.csv',sep=',')

`shape` nos devuelve el número de filas y columnas

In [None]:
df.shape

`head` retorna los primertos 5 resultados contenidos en el dataframe (df)

In [None]:
# head retorna los primeros 5 resultados del dataframe
df.head(10)

`tail` retorna los 5 últimos resultados contenidos en el dataframe (df)

In [None]:
# tail -> retorna los últimos 5 resultados del df
df.tail()

`dtypes` nos indica el tipo de dato para cada una de las columnas del df

In [None]:
df.dtypes

`columns` nos indica las columnas que conforman el df

In [None]:
df.columns

`describe` nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc de los datos de las columnas posibles

In [None]:
# Describe -> nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc 
# de los datos de las columnas posibles
df.describe()

## 3.2 Trabajo con las columnas del DataFrame

In [None]:
df.columns

In [None]:
for c in df.columns:
    print(c)

El método `unique()` nos proporciona, cuando sea aplicable, una lista con los valores únicos de una columna.

In [None]:
for idx in df['candidate'].unique():
    print(idx)

# 4. Filtrado de información

Podemos filtrar un dataframe mediante condiciones booleanas sobre columnas

In [None]:
# condicion -> se encarga de establecer la condicion de Verdad o Falsedad 
condicion = df['votes']>=590502
condicion.head() 

In [None]:
# usando la condicion como filtro
df[condicion] 

podemos concatenar varias condiciones usando `&` para **AND** ,  `|` para **OR** y `~` como **NOT** o negacion.

Tambien debemos recordar los operadores: `==` , `!=` , `>`, `<` , `>=` , `<=`

In [None]:
df[(df.county=="Manhattan") & (df.party=="Democrat")]

Para ver más formas de filtrado [ver](https://towardsdatascience.com/filtering-data-frames-in-pandas-b570b1f834b9)

# 5. Procesadamiento de datos

In [None]:
df.head(2)

podemos usar `sort_values` para orderar el dataframe acorde al valor de una columna o múltiples columnas

In [None]:
df_sorted = df.sort_values(by=["votes","county"], ascending=[True, False])
df_sorted.head()

utilizaremos `groupby` para realizar agrupamientos de informacion sobre una columnas

In [None]:
df.groupby(["state", "party"])

El agrupamiento de datos implica utilizar funciones de agregacion como: `count`, `sum`, `mean`, `min`, `max` a una columna del df

In [None]:
df.groupby(["state", "party"])["votes"].sum()

Es posible añadir una nueva columna al df utilizando un valor en especifico

In [None]:
# creo una columna 'nueva_columna' con el valor de 1 
df['nueva_columna'] = 1
df.head()

podemos usar `apply` en una columna para obtener una nueva columna en función de sus valores

In [None]:
# creo una nueva columna a partir de los datos de otra
df['letra_inicial'] = df.state_abbreviation.apply(lambda s: s[0])  # obtengo primera letra de state_abbreviation

In [None]:
def get_label(fraction:float):
    
    if fraction>0.2:
        return "Mayor"
    else:
        return "Menor"

In [None]:
df['etiqueta_votos'] = df.fraction_votes.apply(get_label)

In [None]:
df.head()

In [None]:
df.groupby("letra_inicial")["votes"].sum().sort_values()

Podemos unir dos dataframes en funcion de sus columnas comunes usando `merge`

La operacion merge implica combinar 2 df a partir de uno o más valores llave o `key`

In [None]:
# Descargamos datos de pobreza por condado en US en https://www.ers.usda.gov/data-products/county-level-data-sets/county-level-data-sets-download-data/
df_pobreza = pd.read_csv("./Files/PovertyEstimates.csv")

In [None]:
df_pobreza.head()

In [None]:
df.head(2)

In [None]:
# Combinando ambas fuentes de datos en un único dataframe a partir de los valores llave
df = df.merge(df_pobreza, left_on="fips", right_on="FIPStxt")
df.head()

Como punto general existen diferentes formas de combinar los dataframe, siendo el método `inner` el utilizado por defecto

Como punto final aplicamos un agrupamiento aplicando múltiples funciones de agregacion al df

In [None]:
county_votes = df.groupby(["county","party"]).agg({
    "fraction_votes":"mean",
    "PCTPOVALL_2015": "mean"   
   }
)

In [None]:
county_votes

# Mini _challenge_ 11

### Para todos los puntos de este Mini challenge debe hacer uso de métodos y funciones de `Pandas`.

1. En el archivo <tt>titanic.csv</tt> encontrará una data sobre los pasajeros del Titanic. Cargue los datos en un `DataFrame`y realice cálculos que permitan respoder las siguientes preguntas:
    1. Número de pasajeros que sobrevivieron por cada clase (Columna <tt>Pclass</tt>)
    1. Proporción de hombres y mujeres que murieron
    1. Tarifa promedio por clase para sobrevivientes y muertos

2. El archivo <tt>boston_dataset.xlsx</tt> contiene 13 atributos:
    | Stretch/Untouched | ProbDistribution |
    |:---:|:-----|
    |CRIM | tasa de criminalidad per cápita por ciudad                                             |
    |ZN | proporción de terreno residencial zonificado para lotes de más de 25,000 pies cuadrados. |
    |INDUS | proporción de acres comerciales no minoristas por ciudad.                             |
    |NOX | concentración de óxidos nítricos (partes por 10 millones)                               |
    |RM | número promedio de cuartos por vivienda                                                  |
    |AGE | proporción de unidades ocupadas por propietarios construidas antes de 1940              |
    |DIS | distancias ponderadas a cinco centros de empleo de Boston                               |
    |RAD | índice de accesibilidad a las carreteras radiales                                       |
    |TAX| tasa de impuestos sobre la propiedad de valor total por cada USD 10,000                  |
    |PTRATIO | ratio alumno/profesor por localidad                                                 |
    |B | 1000(Bk - 0.63)^2 donde Bk es la proporción de negros por ciudad                          |
    |LSTAT | \% estado más bajo de la población                                                    |
    |MEDV | valor medio de las viviendas ocupadas por sus propietarios en miles de dólares         |

    Calcule las estadísticas descriptivas (Media, Desviación, etc.) de cada columna por ciudad (columna <tt>TOWN</tt>)

## Condiciones de entrega
Para este Mini *challenge* se debe hacer entrega, a través del aula digital, de un archivo IPYNB con las soluciones a los problemas y que cuente con lo siguiente:
- Un primer bloque en Markdown a manera de portada, con la siguiente información centrada:
    * Identificación del curso
    * Nombre del estudiante
    * Identificación del mini *challenge*
    * Fecha
- Presentación de cada ejercicio en celda Markdown
- Celdas ejecutables con los problemas desarrollados

<img src="Images/by_nc_sa.svg" style="float:left;width: 50px;"/> &nbsp; El material de este curso está bajo una licencia Creative Commons [Atribución-NoComercial-CompartirIgual 4.0 Internacional](LICENSE.MD) (CC BY-NC-SA 4.0)
Este *Notebook* está parcialmente basado en el material complementario del libro [Python Data Science Handbook](https://www.oreilly.com/library/view/python-data-science/9781491912126/) disponible en [GitHub](https://github.com/jakevdp/PythonDataScienceHandbook).