<a href="https://colab.research.google.com/github/fzambran/EstadisticasCienciaDeDatos/blob/main/Tareas/est_ds_python_1_sol.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de Datos con Pandas

**Estadísticas para la Ciencia de Datos con Python**</br>
**Escuela de Informática y Telecomunicaciones**</br>
**Duoc UC**

---


<a id="ejercicios-de-practica"></a>
### Ejercicios de práctica

La base de datos `gapminder` contiene información sobre distintos índices a lo largo del tiempo en la mayoría de los países del mundo, con el fin de promover el desarrollo global y desmentir mitos comunes sobre salud.
Algunas variables de la base de datos son:
* `country`: País.
* `year`: Año.
* `infanty_mortality`: Índice de mortalidad infantil.
* `life_expectancy`: Esperanza de vida en años.
* `fertility`: Índice de fertilidad.
* `population`: Población total del país.
* `gdp`: PIB anual del país medido en dólares.
* `continent`: Continente.
* `region`: Región.

A continuación, llevará a cabo un análisis en el que investigará sobre las diferencias en la esperanza de vida y PIB de acuerdo a la ubicación geográfica de los países.  


1. Cargue la base de datos `gapminder.xlsx` usando la funcion apropiada para cargar archivos de *Excel* y muestre las primeras observaciones. Recuerde importar `pandas` con el alias `pd`.

In [None]:
# Responda aquí:
import pandas as pd

# Subir archivo al entorno primero
data = pd.read_excel("gapminder.xlsx")
display(data.head())

Unnamed: 0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
0,Albania,1960,115.4,62.87,6.19,1636054.0,,Europe,Southern Europe
1,Algeria,1960,148.2,47.5,7.65,11124892.0,13828150000.0,Africa,Northern Africa
2,Angola,1960,208.0,35.98,7.32,5270844.0,,Africa,Middle Africa
3,Antigua and Barbuda,1960,,62.97,4.43,54681.0,,Americas,Caribbean
4,Argentina,1960,59.87,65.39,3.11,20619075.0,108322300000.0,Americas,South America


2. Muestre información de la base de datos con los métodos `describe` e `info`. ¿Qué aspectos destacan? ¿Y los valores faltantes?

In [None]:
# Responda aquí:
display(data.describe().T)
data.info()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
year,10545.0,1988.0,16.45273,1960.0,1974.0,1988.0,2002.0,2016.0
infant_mortality,9092.0,55.30862,47.72805,1.5,16.0,41.5,85.1,276.9
life_expectancy,10545.0,64.81162,10.67249,13.2,57.5,67.54,73.0,83.9
fertility,10358.0,4.083521,2.02732,0.84,2.2,3.75,6.0,9.22
population,10360.0,27014610.0,106664900.0,31238.0,1333486.0,5009043.0,15231790.0,1376049000.0
gdp,7573.0,147954400000.0,697912800000.0,40395127.89,1845780000.0,7794215000.0,55399650000.0,11744220000000.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10545 entries, 0 to 10544
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   country           10545 non-null  object 
 1   year              10545 non-null  int64  
 2   infant_mortality  9092 non-null   float64
 3   life_expectancy   10545 non-null  float64
 4   fertility         10358 non-null  float64
 5   population        10360 non-null  float64
 6   gdp               7573 non-null   float64
 7   continent         10545 non-null  object 
 8   region            10545 non-null  object 
dtypes: float64(5), int64(1), object(3)
memory usage: 741.6+ KB


3. Para el análisis, no tomaremos en cuenta el índice de fertilidad ni la región. Remueva estas variables de la base de datos.

In [None]:
# Responda aquí:
data = data.drop(columns=["fertility", "region"])
display(data.head())

Unnamed: 0,country,year,infant_mortality,life_expectancy,population,gdp,continent
0,Albania,1960,115.4,62.87,1636054.0,,Europe
1,Algeria,1960,148.2,47.5,11124892.0,13828150000.0,Africa
2,Angola,1960,208.0,35.98,5270844.0,,Africa
3,Antigua and Barbuda,1960,,62.97,54681.0,,Americas
4,Argentina,1960,59.87,65.39,20619075.0,108322300000.0,Americas


4. Para ser consistentes, solo consideraremos la información disponible en un solo año. Filtre la base de datos para solo conservar las observaciones del año 2011.

In [None]:
# Responda aquí:
data2011 = data.copy().query("year == 2011")
# Otra forma: data[data["year"] == 2011]
display(data2011.head())

Unnamed: 0,country,year,infant_mortality,life_expectancy,population,gdp,continent
9435,Albania,2011,14.3,77.4,2886010.0,6321691000.0,Europe
9436,Algeria,2011,22.8,76.1,36717132.0,81143450000.0,Africa
9437,Angola,2011,106.8,58.1,21942296.0,27013940000.0,Africa
9438,Antigua and Barbuda,2011,7.2,75.9,88152.0,801787900.0,Americas
9439,Argentina,2011,12.7,76.0,41655616.0,472935300000.0,Americas


5. ¿Cuántos países hay en cada continente? ¿De que forma esto puede afectar el análisis?

In [None]:
# Responda aquí:
print(data2011["continent"].value_counts())

Africa      51
Asia        47
Europe      39
Americas    36
Oceania     12
Name: continent, dtype: int64


In [None]:
# Esto afecta en que se deberían considerar estadísticos puntuales como la media o mediana.

6. Muestre una tabla donde se diferencie el promedio de esperanza de vida en cada continente. ¿Qué es relevante en este análisis?

In [None]:
# Responda aquí:
display(data2011.groupby("continent").agg({"life_expectancy": ["mean", "std"]}).style.background_gradient())

Unnamed: 0_level_0,life_expectancy,life_expectancy
Unnamed: 0_level_1,mean,std
continent,Unnamed: 1_level_2,Unnamed: 2_level_2
Africa,61.358824,6.829149
Americas,74.416389,3.78891
Asia,73.940213,5.22555
Europe,78.046154,3.603058
Oceania,70.043333,7.539577


In [None]:
# Es revelante que Africa fue el continente con la menor esperanza de vida, mientras que Europa fue la mayor.

7. Para terminar, nos interesa comparar el PIB medio entre distintos contienentes. Sin embargo, esto carece de sentido ya que es de esperar que en cada país el PIB sea mayor a medida que su población lo sea. Para ello calcule el PIB per-cápita (PIB/población) de cada país y luego genere una tabla que permita calcular el PIB per-cápita medio entre continentes. Discuta sobre otra forma de comparar el PIB entre continentes.

In [None]:
# Responda aquí:
data2011["PIB per-capita"] = data2011["gdp"] / data2011["population"]
display(data2011["PIB per-capita"].head())
display(data2011.groupby("continent").agg({"PIB per-capita": "mean"}).style.background_gradient())

9435     2190.460485
9436     2209.961500
9437     1231.135330
9438     9095.516189
9439    11353.457243
Name: PIB per-capita, dtype: float64

Unnamed: 0_level_0,PIB per-capita
continent,Unnamed: 1_level_1
Africa,1332.667353
Americas,6975.160646
Asia,8387.146407
Europe,15375.277039
Oceania,4247.453679


In [None]:
# Otra forma:
data_agrupada = data2011.dropna().groupby("continent")
data_agrupada["gdp"].sum() / data_agrupada["population"].sum()

continent
Africa        874.111158
Americas    16664.335136
Asia         3313.985849
Europe      14868.680575
Oceania     18393.247154
dtype: float64