# PRÁCTICA PANDAS

Vamos a trabajar con un **conjunto de datos público "adults"** con datos del censo de los Estados Unidos, que contiene distintas variables de la población. El fin que se busca es el de clasificar las observaciones segun la variable Ingresos (income), variable dicotómica que indica si son menores o iguales a 50000 $ o bien superiores (“<=50K” o ">50K).

Nosotros en este punto del curso **como práctica de la librería "Pandas" que acabamos de ver, vamos simplemente a echarle un vistazo y a corregir y mejorar algunos aspectos del mismo.**

Los **datos** se encuentran en el archivo **"adult.data"**. **Necesitamos también examinar el archivo "adult.names" que describe el dataset para poder cargar los datos correctamente.**

## CARGA DE LOS DATOS

In [None]:
import numpy as np
import pandas as pd

In [None]:
df_adult = pd.read_csv('./adult.data', \
                       header= None, \
                       names = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status','occupation', \
                                'relationship', 'race', 'sex','capital-gain', 'capital-loss', 'hours-per-week', \
                                'native-country', 'income'])


In [None]:
df_adult.head()

## EXPLORAR DATAFRAME

In [None]:
df_adult.info()

**Para manejar más fácil los datos suele ser util separar las variables por tipo:**

In [None]:
variables_continuas = df_adult.select_dtypes(exclude=['object']).columns.to_list()

variables_continuas



In [None]:
variables_discretas = df_adult.select_dtypes(include=['object']).columns.to_list()

variables_discretas

In [None]:
df_adult.describe()

In [None]:
df_adult.describe(include=['O'])

In [None]:
variables_discretas

In [None]:
for discreta in variables_discretas:

    print(f'Variable {discreta.upper()}:')
    print('Valores unicos: ')
    print(df_adult[discreta].unique(), end='\n'*2)
    print(df_adult[discreta].value_counts(), end='\n'*2)


**Deberíamos  eliminar los espacios en blanco en las columnas tipo cadena y sustituir la interrogación "?" por el valor nulo**

## CORRECCIÓN DE ERRORES

### Espacios en blanco en los campos cadena

**Nota**: a una **Serie** cuyos datos sean texto (cadena, string), se le pueden **aplicar métodos de cadena** a la Serie completa **anteponiendo la palabra clave "str" en la notación punto.**

In [None]:
def eliminar_espacios(serie):
    return serie.str.strip()

In [None]:
df_adult.race[0]

In [None]:
eliminar_espacios(df_adult.race)[0]

In [None]:
df_adult[variables_discretas] = df_adult[variables_discretas].apply(eliminar_espacios)

for discreta in variables_discretas:

    print(f'Variable {discreta.upper()}:')
    print('Valores unicos: ')
    print(df_adult[discreta].unique(), end='\n'*2)

### Codificar correctamente los datos nulos (sustituir "?")

In [None]:
df_adult.replace('?', None, inplace=True)

for discreta in variables_discretas:

    print(f'Variable {discreta.upper()}:')
    print('Valores unicos: ')
    print(df_adult[discreta].unique(), end='\n'*2)

In [None]:
df_adult.isnull().sum()

In [None]:
df_adult.isnull().mean() * 100

## AÑADIR CAMPO CALCULADO 'capital_dif'. ELIMINAR LOS CAMPOS NO NECESARIOS.

In [None]:
df_adult['capital_dif'] = df_adult['capital-gain'] - df_adult['capital-loss']

df_adult.head()

In [None]:
df_adult.drop(columns=['capital-gain', 'capital-loss'], inplace=True)

df_adult.head()

## CODIFICAR LA VARIABLE OBJETIVO

Suele ser usual la variable objetivo si es categórica codificarla a número. Podemos utilizar el método **"replace"** que permite establecer las correspondencias:


In [None]:
muestra_income = df_adult.sample(n=10, random_state=42).income

muestra_income

In [None]:
muestra_income.replace({'<=50K': 0, '>50K': 1})

In [None]:
df_adult.income = df_adult.income.replace({'<=50K': 0, '>50K': 1})

df_adult.head()

## NOS HACEMOS ALGUNAS PREGUNTAS.

**-¿Influye la educación en los ingresos?**

In [None]:
df_adult.groupby(by=['education'])['income'].agg('mean').sort_values(ascending=False)

**-¿Hay sesgo por la raza?**

In [None]:
df_adult.groupby(by=['race'])['income'].agg('mean').sort_values(ascending=False)

**- Influencia cruzada**

In [None]:
df_adult.groupby(by=['education','race'])['income'].agg('mean').sort_values(ascending=False)

## POR ÚLTIMO GUARDAR EL DATAFRAME PROCESADO

In [None]:
df_adult.to_csv('./adult_final.csv', index=False)