# Exploración de datos. Ejercicios

## Bloque 1:

Podríamos cargar una tabla de datos de los Juegos Olímpicos directamente de la wikipedia y realizar algunas operaciones de análisis de datos utilizando Pandas.

Necesitaremos la librería `lxml`


In [None]:
!pip install lxml

In [None]:
import pandas as pd

# importamos la tabla de la wikipedia
df_olimpics = pd.read_html('https://en.wikipedia.org/wiki/All-time_Olympic_Games_medal_table', 
                           storage_options={"User-Agent": "Mozilla/5.0"})[1]

# renombramos la columnas
names = ["Name", 
        "# Summer", "Gold", "Silver", "Bronze", "Total", 
        "# Winter", "Gold.1", "Silver.1", "Bronze.1", "Total.1",
        "# Games", "Gold.2", "Silver.2", "Bronze.2", "Combined total"]

df_olimpics.columns = names

# eliminamos la última línea con los totales
df_olimpics = df_olimpics.loc[df_olimpics.Name != "Totals",:]

# eliminamos las referencias que aparecen junto a los nombres de los países entre corchetes
import re
df_olimpics['Name'] = df_olimpics['Name'].apply(lambda x: re.sub(r'\[.*\]', '', x).strip())

In [None]:
# Guardamos el dataframe limpio en un archivo CSV para su uso posterior
df_olimpics.to_csv('olimpics_medal_table_cleaned.csv', index=False)

Alternativamente, el siguiente código carga el dataset `olimpics_medal_table_cleaned.csv`, que se deriva de la entrada de Wikipedia sobre las medallas de los Juegos Olímpicos de varios años.

Si quiere ver el contenido literal del fichero ejecute la siguiente celda.

In [None]:
!cat olimpics_medal_table_cleaned.csv

In [None]:
df_olimpics.head()

Las columnas están organizadas como: número de juegos de verano, medallas de verano, número de juegos de invierno, medallas de invierno, número total de juegos, número total de medallas. 

Utilice este conjunto de datos para responder a las siguientes preguntas.

1\. ¿Cuál es el primer país en el dataframe?

In [None]:
# Su respuesta aquí



_La salida debe ser: Afghanistan_

2\. ¿Cuál es el país que más medallas ha ganado en juegos de verano? La respuesta debe ser solo el nombre.

In [None]:
# Su respuesta aquí



_La salida debe ser: United States_

3\. ¿Qué país tuvo la mayor diferencia entre sus medallas de oro de verano y de invierno?

In [None]:
# Su respuesta aquí



_La salida debe ser: United States_

4\. ¿Qué país tiene la mayor diferencia entre sus conteos de medallas de oro en verano y en invierno en relación con su conteo total de medallas de oro?

$$\frac{Summer~Gold - Winter~Gold}{Total~Gold}$$

Incluya solo los países que han ganado al menos 1 oro tanto en verano como en invierno.

In [None]:
# Su respuesta aquí



_La salida debe ser: Hungary_

5\. Cree una columna llamada "Points" como un valor ponderado donde cada medalla de oro (`Oro.2`) cuenta por 3 puntos, medallas de plata (`Plata.2`) por 2 puntos, y medallas de bronce (`Bronce.2`) por 1 punto.

In [None]:
# Su respuesta aquí



6\. Cree una gráfica de barras ordenada con los 10 países con más puntos, donde:
- en el título ponga "Top 10 países con más puntos en los Juegos Olímpicos", 
- el tamaño de la figura sea de 10x6, 
- el color de las barras sea 'skyblue', 
- las etiquetas en abcisas tengan una rotación de 45 grados
- se muestre una regilla en la gráfica
- la etiqueta para ordenadas sea 'Puntos' y para abcisas sea 'Países'.

In [None]:
# Su respuesta aquí



7\. Cree una gráfica de tarta con la distribución de las medallas obtenidas por España en los Juegos Olímpicos.

In [None]:
# Su respuesta aquí



## Bloque 2:

Para el siguiente conjunto de preguntas, usaremos los datos del censo de la _Oficina del Censo de los Estados Unidos_.

Los condados son subdivisiones políticas y geográficas de los estados en Estados Unidos. Este conjunto de datos contiene datos de población de los condados y estados de los Estados Unidos desde 2010 hasta 2015. 

Para una descripción de los nombres de las variables, vea [este documento](https://www2.census.gov/programs-surveys/popest/datasets/2010-2015/counties/totals/co-est2015-alldata.pdf).

0\. Cargue el dataframe:

In [None]:
import pandas as pd

df = pd.read_csv('https://www2.census.gov/programs-surveys/popest/datasets/2010-2015/counties/totals/co-est2015-alldata.csv', encoding='latin1')


1\. ¿Cuál es el estado con más condados?

In [None]:
# Su respuesta aquí



_La salida debe ser: Texas_

2\. ¿Cuáles son los tres estados más poblados (en orden de mayor población a menor población)? Utilice `CENSUS2010POP`.

In [None]:
# Su respuesta aquí



_La salida debe ser: California, Texas, New York_

3\. ¿En qué condado se ha producido el mayor cambio absoluto en la población en el período 2010-2015? (Sugerencia: los valores de población se almacenan en las columnas POPESTIMATE2010 a POPESTIMATE2015, es necesario considerar las seis columnas).

Por ejemplo, si la población del condado en el período de 5 años es 100, 120, 80, 105, 100, 130, entonces su mayor cambio en el período sería |130-80| = 50.

Pista: fíjese que la función `apply` dispone del parámetro `axis`, el cuál, si está a 1 indica que el procesamiento se hará sobre filas.

In [None]:
# Su respuesta aquí



_La salida debe ser: Harris County_

4\. En este archivo de datos, Estados Unidos se divide en cuatro regiones utilizando la columna "REGION". 

Cree una consulta que encuentre los condados que pertenecen a las regiones 1 o 2, cuyo nombre comience por "Washington" y cuyo POPESTIMATE2015 sea mayor que su POPESTIMATE 2014.

In [None]:
# Su respuesta aquí



_La dalida debe ser: un DataFrame 5x2 con las columnas = ['STNAME', 'CTYNAME'] siendo los estados: Iowa, Minnesota, Pennsylvania, Rhode Island, Wisconsin._