# Análise de datos con PANDAS

In [2]:
import pandas as pd

### Apertura do CSV

In [3]:
df = pd.DataFrame()

df = pd.read_csv('datos_covid2021_3paises.csv')



### Limpia valores nulos e/ou inválidos/vacíos.

In [4]:
df.isnull().sum()

Unnamed: 0    0
dia           0
pais          0
contaxios     0
mortes        0
dtype: int64

#### No hay valores nulos

In [5]:

df = df.drop(['Unnamed: 0'],axis=1) # dropeo esta columna por que se ha repetido, en reliadad sería el id 
df

Unnamed: 0,dia,pais,contaxios,mortes
0,2021-01-01,Spain,18047,148
1,2021-01-02,Spain,0,0
2,2021-01-03,Spain,0,0
3,2021-01-04,Spain,30579,241
4,2021-01-05,Spain,23700,352
...,...,...,...,...
1090,2021-12-27,France,29614,245
1091,2021-12-28,France,179316,294
1092,2021-12-29,France,202293,173
1093,2021-12-30,France,206243,180


#### Existen días en los que no se han notificado casos, cosa que a priori no tiene sentido, sin embargo, si tenemos en cuenta la realidad del asunto del conteo de estos, se sabe que fueron cambiando la regularidad del conteo haciendo que de un dia para otro haya miles de contagios y en el dataframe estos dias en los que no se hizo recuento o no se notificó aparecen como cero.

### 1. Calcula a media de novos casos ao día

In [6]:
media_contaxios = df['contaxios'].mean()
print(f"La media de contagios ha sido: {media_contaxios:.2f}")

La media de contagios ha sido: 12094.35


### 2. Calcula a media de mortes ao día

In [7]:
media_mortes = df['mortes'].mean()
print(f"La media de muertes ha sido: {media_mortes:,.2f}")

La media de muertes ha sido: 98.00


### 3. Calcula o número máximo de casos

In [8]:
numero_max_casos = df['contaxios'].max()

print(f"El máximo de casos ha sido: {numero_max_casos}")

El máximo de casos ha sido: 232200


### 4. Calcula o número medio de casos separado por grupos

In [9]:
media_de_casos_pais = df['contaxios'].groupby(df['pais']).mean().sort_values(ascending=False).reset_index()

media_de_casos_pais


Unnamed: 0,pais,contaxios
0,France,20638.731507
1,Spain,12977.517808
2,Portugal,2666.789041


### 5. Existe unha correlación entre número de novos casos e mortes?

In [10]:
media_de_mortes_pais = df['mortes'].groupby(df['pais']).mean().sort_values(ascending=False).reset_index()

media_de_mortes_pais

Unnamed: 0,pais,mortes
0,France,154.090411
1,Spain,106.950685
2,Portugal,32.964384


#### Existe una correlación, ya que si imprimimos la media de muertes por país vemos que los países con mas contagions tienen, a su vez, más muertes.

### 6. No caso de que exista unha relación, en que país é maior?

#### Francia es el país con más casos y muertes.

### 7. Cal é a mediana de casos confirmados en Portugal?

In [11]:
casos_portugal = df.loc[df['pais'] == 'Portugal']

mediana_casos_portugal = casos_portugal['contaxios'].median()

print(f"La mediana de casos para portugal es de: {mediana_casos_portugal}")

La mediana de casos para portugal es de: 1186.0


### 8. Cales son os valores dos percentís Q1 e Q3 de Francia para o número de contaxios

In [12]:
francia = df.loc[df['pais'] == 'France'].reset_index()

total_contagios = francia['contaxios']

print("Percentiles del número de contagios Q1-Q3 de Francia")
print(total_contagios.quantile([0.25,0.75]))




Percentiles del número de contagios Q1-Q3 de Francia
0.25     4256.0
0.75    25087.0
Name: contaxios, dtype: float64


### 9. Cantos valores diferentes hai para o número de contaxios nun día en cada un dos países

In [14]:
valores_unicos = df.groupby('pais')['contaxios'].nunique()
valores_unicos

pais
France      332
Portugal    345
Spain       250
Name: contaxios, dtype: int64

### 10. Valor mínimo e máximo de contaxios por día para cada país