# Unidad 6: Python para el análisis de datos

Hasta este punto hemos repasado conceptos de lógica, cómo operar con los distintos tipos de datos en Python y además cómo trabajar sobre el paradigma orientado a objetos.




Como lo comentamos en la introducción el propósito de este curso es aprender a utilizar python con un enfoque hacia el tratamiento de datos. Esto no es mas que aplicar funciones sobre cierto conjuntos de datos a fin de poner obtener cierta información relevante.

En esta unidad vamos a explorar distintas maneras para trabajar con archivos, tipos de datos referidos a una etiqueta temporal y los gráficos asociados a ellos 


#### Acceso a archivos

Hay varias maneras de leer un archivo CSV, dependiendo de la herramienta o librería que prefieras usar. Aquí vemos algunos de los métodos más comunes

In [66]:
path = 'datos/cambio_genero_provincia_genero_edad_mayo_2024.csv'

In [67]:
#usando la librería estandar csv

import csv
with open(path, newline='') as archivo:
    lector = csv.reader(archivo)
    for fila in lector:
        print(fila)


['provincia_id', 'provincia_nombre', 'genero', 'edad_actual_grandes_grupos', 'cantidad']
['6', 'Buenos Aires', 'F', '0 a 17', '91']
['6', 'Buenos Aires', 'F', '18 a 29', '928']
['6', 'Buenos Aires', 'F', '30 a 39', '816']
['6', 'Buenos Aires', 'F', '40 y mas', '1240']
['6', 'Buenos Aires', 'M', '0 a 17', '380']
['6', 'Buenos Aires', 'M', '18 a 29', '1955']
['6', 'Buenos Aires', 'M', '30 a 39', '573']
['6', 'Buenos Aires', 'M', '40 y mas', '224']
['6', 'Buenos Aires', 'X', '0 a 17', '50']
['6', 'Buenos Aires', 'X', '18 a 29', '423']
['6', 'Buenos Aires', 'X', '30 a 39', '174']
['6', 'Buenos Aires', 'X', '40 y mas', '95']
['10', 'Catamarca', 'F', '0 a 17', '1']
['10', 'Catamarca', 'F', '18 a 29', '39']
['10', 'Catamarca', 'F', '30 a 39', '41']
['10', 'Catamarca', 'F', '40 y mas', '34']
['10', 'Catamarca', 'M', '0 a 17', '7']
['10', 'Catamarca', 'M', '18 a 29', '33']
['10', 'Catamarca', 'M', '30 a 39', '8']
['10', 'Catamarca', 'M', '40 y mas', '2']
['10', 'Catamarca', 'X', '18 a 29', '4']

In [68]:
#mediante procesamiento manual
with open(path, 'r') as archivo:
    for linea in archivo:
        datos = linea.strip().split(',')
        print(datos)


['provincia_id', 'provincia_nombre', 'genero', 'edad_actual_grandes_grupos', 'cantidad']
['6', 'Buenos Aires', 'F', '0 a 17', '91']
['6', 'Buenos Aires', 'F', '18 a 29', '928']
['6', 'Buenos Aires', 'F', '30 a 39', '816']
['6', 'Buenos Aires', 'F', '40 y mas', '1240']
['6', 'Buenos Aires', 'M', '0 a 17', '380']
['6', 'Buenos Aires', 'M', '18 a 29', '1955']
['6', 'Buenos Aires', 'M', '30 a 39', '573']
['6', 'Buenos Aires', 'M', '40 y mas', '224']
['6', 'Buenos Aires', 'X', '0 a 17', '50']
['6', 'Buenos Aires', 'X', '18 a 29', '423']
['6', 'Buenos Aires', 'X', '30 a 39', '174']
['6', 'Buenos Aires', 'X', '40 y mas', '95']
['10', 'Catamarca', 'F', '0 a 17', '1']
['10', 'Catamarca', 'F', '18 a 29', '39']
['10', 'Catamarca', 'F', '30 a 39', '41']
['10', 'Catamarca', 'F', '40 y mas', '34']
['10', 'Catamarca', 'M', '0 a 17', '7']
['10', 'Catamarca', 'M', '18 a 29', '33']
['10', 'Catamarca', 'M', '30 a 39', '8']
['10', 'Catamarca', 'M', '40 y mas', '2']
['10', 'Catamarca', 'X', '18 a 29', '4']

In [69]:
#usando numpy
import numpy as np

datos = np.loadtxt(path, delimiter=',', skiprows=1)
print(datos)

##OJO numpy puede utilizarse solo si los datos son puramente numéricos

ValueError: could not convert string 'Buenos Aires' to float64 at row 0, column 2.

Finalmente la librería pandas, es una de las libería más utilizadas para el procesamiento de datos heterogéneos. Y de las menos querida por los puristas de python


In [278]:
import pandas as pd

df = pd.read_csv(path)
print(df.head())

   provincia_id provincia_nombre genero edad_actual_grandes_grupos  cantidad
0             6     Buenos Aires      F                     0 a 17        91
1             6     Buenos Aires      F                    18 a 29       928
2             6     Buenos Aires      F                    30 a 39       816
3             6     Buenos Aires      F                   40 y mas      1240
4             6     Buenos Aires      M                     0 a 17       380


### 🐼 ¿Qué es pandas?

pandas es una biblioteca de Python que facilita el trabajo con datos tabulares (como los que ves en hojas de Excel o bases de datos). Permite leer, escribir, filtrar, transformar, agrupar y analizar datos de forma eficiente.

 pip install pandas


#### Exploración básica

In [279]:
# Ver las primeras 5 filas
df.head()


Unnamed: 0,provincia_id,provincia_nombre,genero,edad_actual_grandes_grupos,cantidad
0,6,Buenos Aires,F,0 a 17,91
1,6,Buenos Aires,F,18 a 29,928
2,6,Buenos Aires,F,30 a 39,816
3,6,Buenos Aires,F,40 y mas,1240
4,6,Buenos Aires,M,0 a 17,380


In [280]:
# Ver las últimas 5 filas
df.tail()

Unnamed: 0,provincia_id,provincia_nombre,genero,edad_actual_grandes_grupos,cantidad
279,90,Tucumán,M,40 y mas,19
280,90,Tucumán,X,0 a 17,2
281,90,Tucumán,X,18 a 29,14
282,90,Tucumán,X,30 a 39,10
283,90,Tucumán,X,40 y mas,5


In [281]:
# Ver los nombres de las columnas
df.columns

Index(['provincia_id', 'provincia_nombre', 'genero',
       'edad_actual_grandes_grupos', 'cantidad'],
      dtype='object')

In [282]:
# Ver información general (nombres, tipos, nulos)
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284 entries, 0 to 283
Data columns (total 5 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   provincia_id                284 non-null    int64 
 1   provincia_nombre            284 non-null    object
 2   genero                      284 non-null    object
 3   edad_actual_grandes_grupos  284 non-null    object
 4   cantidad                    284 non-null    int64 
dtypes: int64(2), object(3)
memory usage: 11.2+ KB


In [283]:
# Estadísticas para columnas numéricas
df.describe()

Unnamed: 0,provincia_id,cantidad
count,284.0,284.0
mean,53.93662,66.207746
std,28.565025,172.738581
min,6.0,1.0
25%,30.0,5.0
50%,54.0,17.0
75%,78.0,53.0
max,99.0,1955.0


###  🧼 Filtrado de datos

In [284]:
df_femenino = df[df['genero'] == 'F']

df_femenino.describe()

Unnamed: 0,provincia_id,cantidad
count,98.0,98.0
mean,53.918367,99.285714
std,28.788483,186.772644
min,6.0,1.0
25%,30.0,13.5
50%,54.0,45.0
75%,78.0,82.0
max,99.0,1240.0


In [285]:
df_mayores_40 = df[df['edad_actual_grandes_grupos'] == '40 y mas']
df_mayores_40.describe()

Unnamed: 0,provincia_id,cantidad
count,70.0,70.0
mean,54.2,65.814286
std,28.647584,168.469435
min,6.0,1.0
25%,30.0,5.0
50%,54.0,12.0
75%,78.0,51.75
max,99.0,1240.0


In [286]:
#¿Cuántas personas hay por provincia?
df.groupby('provincia_nombre')['cantidad'].sum()

provincia_nombre
Buenos Aires                       6949
Catamarca                           176
Chaco                               246
Chubut                              306
Ciudad Autónoma de Buenos Aires    2338
Corrientes                          291
Córdoba                            1489
Entre Ríos                          495
Formosa                             149
Jujuy                               352
La Pampa                            158
La Rioja                            192
Mendoza                             613
Misiones                            224
Neuquén                             378
Otro Pais                           181
Río Negro                           318
Salta                               695
San Juan                            287
San Luis                            254
Santa Cruz                          174
Santa Fe                           1503
Santiago del Estero                 246
Tierra del Fuego                    116
Tucumán                

In [287]:
#¿Cuántas personas por género?
df.groupby('genero')['cantidad'].sum()

genero
F    9730
M    7381
X    1692
Name: cantidad, dtype: int64

In [288]:
#¿Cantidad por grupo etario?
df.groupby('edad_actual_grandes_grupos')['cantidad'].sum()

edad_actual_grandes_grupos
0 a 17      1147
18 a 29     8080
30 a 39     4969
40 y mas    4607
Name: cantidad, dtype: int64

## Indexación

#### Recortes por fila


🟢 Seleccionar una fila por número (posición)

In [289]:
df.iloc[0]  # primera fila

provincia_id                             6
provincia_nombre              Buenos Aires
genero                                   F
edad_actual_grandes_grupos          0 a 17
cantidad                                91
Name: 0, dtype: object

In [290]:
df.iloc[2]  # tercera fila

provincia_id                             6
provincia_nombre              Buenos Aires
genero                                   F
edad_actual_grandes_grupos         30 a 39
cantidad                               816
Name: 2, dtype: object

🔵 Seleccionar un rango de filas (posición)

In [291]:
df.iloc[1:4]  # desde la fila 1 hasta la 3 (no incluye la 4)

Unnamed: 0,provincia_id,provincia_nombre,genero,edad_actual_grandes_grupos,cantidad
1,6,Buenos Aires,F,18 a 29,928
2,6,Buenos Aires,F,30 a 39,816
3,6,Buenos Aires,F,40 y mas,1240


In [292]:
df[df['genero'] == 'F']  # todas las filas donde género es F

Unnamed: 0,provincia_id,provincia_nombre,genero,edad_actual_grandes_grupos,cantidad
0,6,Buenos Aires,F,0 a 17,91
1,6,Buenos Aires,F,18 a 29,928
2,6,Buenos Aires,F,30 a 39,816
3,6,Buenos Aires,F,40 y mas,1240
12,10,Catamarca,F,0 a 17,1
...,...,...,...,...,...
264,94,Tierra del Fuego,F,40 y mas,9
272,90,Tucumán,F,0 a 17,4
273,90,Tucumán,F,18 a 29,119
274,90,Tucumán,F,30 a 39,159


In [293]:
df[df['cantidad'] > 500]  # cantidad mayor a 500

Unnamed: 0,provincia_id,provincia_nombre,genero,edad_actual_grandes_grupos,cantidad
1,6,Buenos Aires,F,18 a 29,928
2,6,Buenos Aires,F,30 a 39,816
3,6,Buenos Aires,F,40 y mas,1240
5,6,Buenos Aires,M,18 a 29,1955
6,6,Buenos Aires,M,30 a 39,573
46,99,Ciudad Autónoma de Buenos Aires,F,40 y mas,511
48,99,Ciudad Autónoma de Buenos Aires,M,18 a 29,524


### 📌 2. Recortes por columna


In [294]:
df['cantidad']

0        91
1       928
2       816
3      1240
4       380
       ... 
279      19
280       2
281      14
282      10
283       5
Name: cantidad, Length: 284, dtype: int64

In [295]:
df.describe()

Unnamed: 0,provincia_id,cantidad
count,284.0,284.0
mean,53.93662,66.207746
std,28.565025,172.738581
min,6.0,1.0
25%,30.0,5.0
50%,54.0,17.0
75%,78.0,53.0
max,99.0,1955.0


In [296]:
df[['genero', 'cantidad']]

Unnamed: 0,genero,cantidad
0,F,91
1,F,928
2,F,816
3,F,1240
4,M,380
...,...,...
279,M,19
280,X,2
281,X,14
282,X,10


## 📌 3. Recortes combinados (filas + columnas)

In [297]:
df.loc[0, 'cantidad']  # usando etiquetas

91

In [298]:
df.iloc[0, 4]          # usando posición

91

In [299]:
# ????
df.loc[0:2, ['genero', 'cantidad']]


Unnamed: 0,genero,cantidad
0,F,91
1,F,928
2,F,816


In [300]:
df.columns


Index(['provincia_id', 'provincia_nombre', 'genero',
       'edad_actual_grandes_grupos', 'cantidad'],
      dtype='object')

In [301]:

df.drop(columns='provincia_id', inplace=True)

In [302]:
df.columns

Index(['provincia_nombre', 'genero', 'edad_actual_grandes_grupos', 'cantidad'], dtype='object')

In [303]:
df.drop(index=3, inplace=True)  # elimina la fila con índice 3

In [304]:
# Filtrar solo mujeres y mostrar edad + cantidad
df[df['genero'] == 'F'][['edad_actual_grandes_grupos', 'cantidad']]

Unnamed: 0,edad_actual_grandes_grupos,cantidad
0,0 a 17,91
1,18 a 29,928
2,30 a 39,816
12,0 a 17,1
13,18 a 29,39
...,...,...
264,40 y mas,9
272,0 a 17,4
273,18 a 29,119
274,30 a 39,159
