# Ejercicios

Completa los siguientes ejercicios utilizando lo que hemos aprendido hasta y los datos del directorio ejercicios/:

1. Queremos ver los datos de las acciones de Facebook, Apple, Amazon, Netflix y Google (FAANG), pero nos dieron cada uno como un archivo CSV separado. Combínelos en un único archivo y guarde el dataframe de los datos FAANG como faang para el resto de los ejercicios:
- a) Lee los archivos aapl.csv, amzn.csv, fb.csv, goog.csv y nflx.csv.
- b) Añade una columna a cada dataframe, llamalo ticker, indicando el símbolo del ticker al que corresponde (el de Apple es AAPL, por ejemplo); así es como se busca una acción. En este caso, los nombres de los archivos son los símbolos de los teletipos.
- c) Agréguelos en un dataframe.
- d) Guarda el resultado en un archivo CSV llamado faang.csv.
2. Con faang, utilice la conversión de tipos para convertir los valores de la columna de fecha en datetime y la columna de volumen en números enteros. A continuación, ordena por fecha y ticker.
3. Encuentre las siete filas en faang con el valor más bajo para el volumen.
4. En este momento, los datos están entre formato largo y ancho. Utilice melt() para que el formato sea completamente largo. Sugerencia: fecha y ticker son nuestras variables ID
(identifican de forma única cada fila). Necesitamos fundir(melt) el resto para no tener columnas separadas para apertura, máximo, mínimo, cierre y volumen.
5. Supongamos que descubrimos que el 26 de julio de 2018 hubo un fallo en cómo se registraron los datos. ¿Cómo debemos manejar esto? Tenga en cuenta que no se requiere codificación para este ejercicio.
6. El Centro Europeo para la Prevención y el Control de las Enfermedades (ECDC) proporciona un conjunto de datos abierto sobre casos de COVID-19 denominado número diario de nuevos casos notificados de COVID-19 por país en todo el mundo (https://www.ecdc.europa.eu/en/publications-data/download-todays-data-geographicdistribution-covid-19-cases-worldwide). Este conjunto de datos se actualiza diariamente, pero utilizaremos una instantánea que contiene datos desde el 1 de enero de 2020 hasta el 18 de septiembre de 2020. Limpia y pivota los datos para que estén en formato ancho:
- a) Lea el archivo covid19_casos.csv.
- b) Cree una columna de fecha utilizando los datos de la columna dateRep y la función pd.to_datetime().
- c) Establece la columna de fecha como índice y ordena el índice.
- d) Sustituye todas las apariciones de United_States_of_America y United_Kingdom por USA y UK, respectivamente. Sugerencia: el método replace() puede ejecutarse en todo el dataframe.
- e) Utilizando la columna countriesAndTerritories, filtre los datos de casos COVID-19 depurados hasta Argentina, Brasil, China, Colombia, India, Italia, México, Perú, Rusia, España, Turquía, Reino Unido y Estados Unidos.
- f) Pivota los datos de modo que el índice contenga las fechas, las columnas contengan los nombres de los países y los valores sean los recuentos de casos (la columna de casos). Asegúrate de rellenar los valores NaN con 0.
7. Para determinar los totales de casos por país de forma eficiente, necesitamos las habilidades de agregación que aprenderemos en el Capítulo 4, Agregación de Pandas DataFrames, así que los datos ECDC en el fichero covid19_casos.csv han sido agregados para nosotros y guardados en el fichero covid19_total_casos.csv. Contiene el número total de casos por país. Utilice estos datos para encontrar los 20 países con los mayores totales de casos de COVID-19. Sugerencias: al leer el archivo CSV, introduzca index_col='cases' y tenga en cuenta que será útil transponer los datos antes de aislar los países.

## Importamos librerías

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Combinación de DataFrames:

1. Queremos ver los datos de las acciones de Facebook, Apple, Amazon, Netflix y Google (FAANG), pero nos dieron cada uno como un archivo CSV separado. Combínelos en un único archivo y guarde el dataframe de los datos FAANG como faang para el resto de los ejercicios:

In [None]:
face = pd.read_csv('fb.csv', sep=',')
apple = pd.read_csv('aapl.csv', sep=',')
amazon = pd.read_csv('amzn.csv', sep=',')
netflix = pd.read_csv('nflx.csv', sep=',')
google = pd.read_csv('goog.csv', sep=',')

In [None]:
face.head()
face.shape
face['ticker'] = 'FB'
face.head()

In [None]:
apple.head()
apple.shape
apple['ticker'] = 'APPL'
apple.head()

In [None]:
df_FA = pd.concat((face,apple))
df_FA

In [None]:
amazon.head()
amazon.shape
amazon['ticker'] = 'AMZN'
amazon.head()

In [None]:
netflix.head()
netflix.shape
netflix['ticker'] = 'NFLX'
netflix.head()

In [None]:
df_AN = pd.concat((amazon,netflix))
df_AN

In [None]:
google.head()
google.shape
google['ticker'] = 'GOOG'
google.head()

In [None]:
df_FAAN = pd.concat((df_FA,df_AN))
faang = pd.concat((df_FAAN,google))
faang.to_csv('faang.csv', index=False)

## Ejercicio 2

2. Con faang, utilice la conversión de tipos para convertir los valores de la columna de fecha en datetime y la columna de volumen en números enteros. A continuación, ordena por fecha y ticker.

In [None]:
faang = pd.read_csv('faang.csv', sep=',')
faang.head()

In [None]:
faang.info()

In [None]:
faang['date'] = pd.to_datetime(faang['date'])
faang['volume'] =  faang['volume'].astype(int)

In [None]:
faang.info()
faang.sort_values(by=['date','ticker'],inplace=True)

In [None]:
faang.head()

## Ejercicio 3

3. Encuentre las siete filas en faang con el valor más bajo para el volumen.

In [None]:
faang.loc[:,'volume'].sort_values(ascending=True).head(7)

## Ejercicio 4

4. En este momento, los datos están entre formato largo y ancho. Utilice melt() para que el formato sea completamente largo. Sugerencia: fecha y ticker son nuestras variables ID
(identifican de forma única cada fila). Necesitamos fundir(melt) el resto para no tener columnas separadas para apertura, máximo, mínimo, cierre y volumen.

In [None]:
faang.columns

In [None]:
faang_df = faang.melt(
    id_vars=('date','ticker'),
    value_vars=['high', 'low', 'open','close', 'volume']
)
faang_df.head()

## Ejercicio 5

5. Supongamos que descubrimos que el 26 de julio de 2018 hubo un fallo en cómo se registraron los datos. ¿Cómo debemos manejar esto? Tenga en cuenta que no se requiere codificación para este ejercicio.

In [None]:
faang_df

In [None]:
faang_df.query('date == "2018-07-26"')

## Ejercicio 6

6. El Centro Europeo para la Prevención y el Control de las Enfermedades (ECDC) proporciona un conjunto de datos abierto sobre casos de COVID-19 denominado número diario de nuevos casos notificados de COVID-19 por país en todo el mundo (https://www.ecdc.europa.eu/en/publications-data/download-todays-data-geographicdistribution-covid-19-cases-worldwide). Este conjunto de datos se actualiza diariamente, pero utilizaremos una instantánea que contiene datos desde el 1 de enero de 2020 hasta el 18 de septiembre de 2020. Limpia y pivota los datos para que estén en formato ancho:
- a) Lea el archivo covid19_casos.csv.
- b) Cree una columna de fecha utilizando los datos de la columna dateRep y la función pd.to_datetime().
- c) Establece la columna de fecha como índice y ordena el índice.
- d) Sustituye todas las apariciones de United_States_of_America y United_Kingdom por USA y UK, respectivamente. Sugerencia: el método replace() puede ejecutarse en todo el dataframe.
- e) Utilizando la columna countriesAndTerritories, filtre los datos de casos COVID-19 depurados hasta Argentina, Brasil, China, Colombia, India, Italia, México, Perú, Rusia, España, Turquía, Reino Unido y Estados Unidos.
- f) Pivota los datos de modo que el índice contenga las fechas, las columnas contengan los nombres de los países y los valores sean los recuentos de casos (la columna de casos). Asegúrate de rellenar los valores NaN con 0.

In [None]:
covid_df = pd.read_csv('covid19_cases.csv')
covid_df.head()

In [None]:
covid_df['date'] = pd.to_datetime(covid_df['dateRep'], dayfirst=True, yearfirst=True)
covid_df.set_index('date',inplace=True)
covid_df.head()

In [None]:
covid_df['countriesAndTerritories'].replace('United_States_of_America', 'USA',inplace=True)
covid_df['countriesAndTerritories'].replace('United_Kingdom', 'UK',inplace=True)

In [None]:
covid_df.head()

In [None]:
covid_df['countriesAndTerritories'].unique() 

In [None]:
# - e) Utilizando la columna countriesAndTerritories, filtre los datos de casos COVID-19 depurados
# hasta Argentina, Brasil, China, Colombia, India, Italia, México, Perú, Rusia, España, Turquía, Reino Unido y Estados Unidos.

countries = ['Argentina', 'Brazil', 'China', 'Colombia', 'India', 'Italy', 'Mexico', 'Peru', 'Russia', 'Spain', 'Turkey', 'UK','USA']

countries.groupby(countries)['popData2019'].count()