# Práctica I - Manejo de Datos

Alan Badillo Salas (badillo.soft@hotmail.com)

El objetivo de está práctica es manipular datos provenientes de archivos CSV, Excel y SQL, mediante DataFrames de Pandas.

Primero vamos a recuperar los datos de un archivo CSV.

Usaremos el archivo descargado desde https://archive.ics.uci.edu/ml/datasets/Adult y especificamente desde https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data.

La primer opción es bajar el archivo en la misma carpeta que esta notebook y la segunda es cargar el archivo desde su url.

## Paso 1 - (Adquisición) Cargar el archivo CSV desde la URL

Mediante la librería pandas (`pd`) vamos a recuperar el archivo desde su URL a un DataFrame de pandas. Observa que el archivo CSV no tiene una primer fila de cabeceras, por lo que indicamos que cargue el archivo sin cabeceras.

In [9]:
import pandas as pd

url = "adult.data"

data = pd.read_csv(url, header=None)

data.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K


## Paso 2 - (Limpieza y Estructuración) Obtener el DataFrame de Análisis

Vamos a crear un nuevo DataFrame con las columnas de análisis bien estructuradas, es decir, con nombres y datos manipulables.

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
0     32561 non-null int64
1     32561 non-null object
2     32561 non-null int64
3     32561 non-null object
4     32561 non-null int64
5     32561 non-null object
6     32561 non-null object
7     32561 non-null object
8     32561 non-null object
9     32561 non-null object
10    32561 non-null int64
11    32561 non-null int64
12    32561 non-null int64
13    32561 non-null object
14    32561 non-null object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


In [11]:
data2 = pd.DataFrame({
    "poblacion": data[2],
    "grado_edu": data[4],
    "razgo": data[8],
    "genero": data[9],
    "salario_est": data[14]
})

data2.sample(5)

Unnamed: 0,poblacion,grado_edu,razgo,genero,salario_est
17514,417668,13,White,Male,<=50K
26294,134566,9,White,Male,<=50K
25812,169482,10,White,Female,<=50K
8157,121912,10,White,Male,>50K
23056,306707,9,Black,Female,<=50K


In [13]:
# Ejemplo de mapeo en Series de Pandas

S = pd.Series(["A", "B", "C", "A", "C", "C", "B"])

# Mapeo de codificación finita
Sp = S.map({
    "A": 2,
    "B": 1,
    "C": 4
})

print(S)

print(Sp)

0    A
1    B
2    C
3    A
4    C
5    C
6    B
dtype: object
0    2
1    1
2    4
3    2
4    4
5    4
6    1
dtype: int64


In [15]:
# Calcular los elementos distintos en una serie de Pandas

S = pd.Series(["A", "B", "C", "A", "C", "D", "C", "B"])

list(set(S))

['D', 'A', 'B', 'C']

In [17]:
# Ejercicio: Calcular los elementos distintos de `data` en las columnas 8, 9 y 14

print( list( set( data[8] ) ) )
print( list( set( data[9] ) ) )
print( list( set( data[14] ) ) )

[' White', ' Black', ' Other', ' Amer-Indian-Eskimo', ' Asian-Pac-Islander']
[' Female', ' Male']
[' >50K', ' <=50K']


In [22]:
data2 = pd.DataFrame({
    "poblacion": data[2],
    "grado_edu": data[4],
    "razgo": data[8].map({
        " White":1,
        " Black":2,
        " Other":3,
        " Amer-Indian-Eskimo":4,
        " Asian-Pac-Islander":5
    }),
    "genero": data[9].map({
        " Female":1,
        " Male":2
    }),
    "salario_est": data[14].map({
        " >50K":1,
        " <=50K":-1
    })
})

data2.sample(5)

Unnamed: 0,poblacion,grado_edu,razgo,genero,salario_est
28980,201699,16,1,2,1
12111,152328,10,1,2,-1
19169,609935,13,2,2,-1
10716,180920,9,1,2,1
11425,226717,8,1,2,-1
