# Un EDA de pocos minutos con Pandas

EDA es la sigla en inglés para Exploratory Data Analysis y consiste en una de las primeras tareas que
tiene que desempeñar el Científico de Datos. Es cuando revisamos por primera vez los datos que nos
llegan, por ejemplo un archivo CSV y deberemos intentar comprender “¿de qué se trata?”, vislumbrar
posibles patrones y reconocer distribuciones estadísticas que puedan ser útiles en el futuro.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm    #!pip install statsmodels

In [None]:
url = 'https://raw.githubusercontent.com/lorey/list-of-countries/master/csv/countries.csv'
df = pd.read_csv(url, sep=";")

In [None]:
df.head(10)

In [None]:
df.to_csv("lista_de_paises.csv") # guardamos en dataframe crudo en un archivo csv

In [None]:
df.shape # dimencion del dataframe filas y columnas

In [None]:
df.info()

In [None]:
df.describe()

Pandas filtra las features numéricas y calcula datos estadísticos que pueden ser útiles: cantidad,
media, desvío estándar, valores máximo y mínimo.
Verifiquemos si hay correlación entre los datos

In [None]:
corr2 = df.corr()
corr2

In [None]:
corr = df.set_index('alpha_3').corr()
corr

In [None]:
sm.graphics.plot_corr(corr2, xnames=list(corr.columns))
plt.show()

En este caso vemos baja correlación entre las variables. Dependiendo del algoritmo que utilicemos
podría ser una buena decisión eliminar features que tuvieran alta correlación
Cargamos un segundo archivo csv para ahondar en el crecimiento de la población en los últimos
años, filtramos a España y visualizamos

In [None]:
url = 'https://raw.githubusercontent.com/DrueStaples/Population_Growth/master/countries.csv'
df_pop = pd.read_csv(url)

In [None]:
df_pop.sample(10)

In [None]:
df_pop.to_csv("Poblacion_crecimiento.csv")

In [None]:
df_pop_es = df_pop[ df_pop["country"] == 'Spain' ]

In [None]:
df_pop_es

In [None]:
df_pop_es.drop([1416],axis=0)

In [None]:
df_pop_es.drop(['country'],axis=1)['population'].plot(kind='bar')

In [None]:
df_pop_es.drop(['country'],axis=1).set_index("year").plot(kind='bar')

In [None]:
df_pop_es.drop(['country'],axis=1)["population"]

In [None]:
df_pop_es.drop(['country'],axis=1).set_index("year")["population"]

### Comparacion españa argentina

In [None]:
df_pop_ar = df_pop[ (df_pop["country"] == 'Argentina')]
df_pop_ar

In [None]:
años  = df_pop_es['year'].unique()
años



In [None]:
pop_ar = df_pop_ar['population'].values
pop_ar

In [None]:
pop_es = df_pop_es['population'].values
pop_es

In [None]:
pop_ar

In [None]:
pop_es

In [None]:
plt.plot(años, pop_ar  ,'go-', label = "argentina")
plt.plot(años, pop_es  ,'bo-', label = "españa")
plt.legend()
plt.show()

In [None]:
df_plot = pd.DataFrame({'Argentina': pop_ar,'España': pop_es},index=años)
df_plot.plot(kind='bar', width=0.7)

In [None]:
df

In [None]:
# Ahora filtremos todos los paises hispano-hablantes
df_espanol = df.replace(np.nan, '', regex=True)
df_espanol

In [None]:
df_espanol['languages'].str.contains('es')

In [None]:
df_espanol = df_espanol[ df_espanol['languages'].str.contains('es') ]
df_espanol

In [None]:
df_espanol = df_espanol[ ( df_espanol['alpha_3'] != "USA") & ( df_espanol['alpha_3'] != "BRA")  ]

In [None]:
df_espanol

In [None]:
df_espanol.set_index('alpha_3')[['population','area']].plot(kind='bar',rot=0,figsize=(20,15),width=0.8)

In [None]:
df_espanol.set_index('alpha_3')[
    ['population','area']].sort_values(
    ["population"]).plot(kind='bar',rot=65,figsize=(20,10),width=0.8)