# Módulo 2: Cargando datos con Python

Objetivo: El objetivo de este cuaderno es realizar la importanción de los datos con los cuales se trabajará en el curso.


# Importar librerías requeridas

Se va a utilizar la librería Pandas de Python para realizar la lectura de archivos. Se le asigna un alias pd para que sea más fácil utilizarla:

In [1]:
# Importar libreria requerida
import pandas as pd

# Cargar los datos
Existen varios formatos para un conjunto de datos, .csv, .json, .xlsx, etc. Los datos pueden ser almacenados en distintos lugares, ya sea localmente o en línea. En estas sección aprenderá a cargar un conjunto de datos en su cuaderno de python. En nuestro caso el conjunto de datos Adult es de una fuente en línea en formato CSV (valores separados por coma). El siguiente código carga los datos desde la dirección URL y los convierte a un tipo de datos de python llamado dataframe (similar a una tabla).

In [2]:
# Leer datos desde archivo CSV
csv_path = "http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"
df = pd.read_csv(csv_path,sep=",",header= None)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


# Nombres de los atributos
Observe el conjunto de datos; Pandas automaticamente establece la cabecera en un entero a partir de 0.
Para describir mejor los datos se puede agregar una cabecera, esta información esta disponible en: https://archive.ics.uci.edu/ml/machine-learning-databases/adult/

De este modo se pueden agregar las cabeceras manualmente. Primero se crea una lista headers que incluya todos los nombres de columna en orden. Despues se utiliza la función dataframe.columns = headers para reemplazar las cabeceras por la lista que se ha creado.

In [3]:
# crear la lista headers 
headers = ["age","workclass","fnlwgt","education","education-num", "marital-status","occupation",
         "relationship","race","sex", "capital-gain","capital-loss","hours-per-week","native-country","makes"]
df.columns = headers
df.head(100)

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,makes
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,29,Local-gov,115585,Some-college,10,Never-married,Handlers-cleaners,Not-in-family,White,Male,0,0,50,United-States,<=50K
96,48,Self-emp-not-inc,191277,Doctorate,16,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,1902,60,United-States,>50K
97,37,Private,202683,Some-college,10,Married-civ-spouse,Sales,Husband,White,Male,0,0,48,United-States,>50K
98,48,Private,171095,Assoc-acdm,12,Divorced,Exec-managerial,Unmarried,White,Female,0,0,40,England,<=50K


# Tipos de datos
Los datos se encuentran en una variedad de tipos.
Los tipos principales almacenados en dataframes de Pandas son object, float, int, bool y datetime64. Para aprender mejor acerca de cada atributo es mejor para nosotros saber el tipo de dato de cada columna.

In [4]:
#La función dtypes genera una tabla con el tipo de dato de cada columna
df.dtypes

age                int64
workclass         object
fnlwgt             int64
education         object
education-num      int64
marital-status    object
occupation        object
relationship      object
race              object
sex               object
capital-gain       int64
capital-loss       int64
hours-per-week     int64
native-country    object
makes             object
dtype: object

# Exportar los datos
<p>
De la misma forma, Pandas permite guardar el conjunto en formato CSV con el método <code>dataframe.to_csv()</code>, puede añadir la ruta al archivo y el nombre con comillas dentro de los corchetes.
</p>
Se puede leer y guardar con otros formatos y usar funciones similares a <code>pd.read_csv()</code> y <code>df.to_csv()</code> para otros formatos de datos, las funciones se muestran en la siguiente tabla:

| Data Formate |        Read       |            Save |
| ------------ | :---------------: | --------------: |
| csv          |  `pd.read_csv()`  |   `df.to_csv()` |
| json         |  `pd.read_json()` |  `df.to_json()` |
| excel        | `pd.read_excel()` | `df.to_excel()` |
| hdf          |  `pd.read_hdf()`  |   `df.to_hdf()` |
| sql          |  `pd.read_sql()`  |   `df.to_sql()` |
| ...          |        ...        |             ... |

# Links de ayuda interesantes
Graficos Seaborn: https://seaborn.pydata.org/examples/index.html
Plotting with categorical data: https://seaborn.pydata.org/tutorial/categorical.html
Visualizing statistical relationships: https://seaborn.pydata.org/tutorial/relational.html
Funciones Generales y Ayuda Pandas: https://pandas.pydata.org/pandas-docs/stable/reference/general_functions.html
How to Perform Exploratory Data Analysis with Seaborn: https://towardsdatascience.com/how-to-perform-exploratory-data-analysis-with-seaborn-97e3413e841d