## 1. Introducción

Usaremos en este caso una versión muy resumida de datos de la Encuesta Permanentes de Hogares (relevamiento llevado adelante por el INDEC). Se trata de una encuesta continua que tiene como objetivo fundamental generar información sobre el funcionamiento del mercado de trabajo.

Solamente utilizaremos algunas variables (edad, nivel educativo, cantidad de horas trabajadas, calificación de la tarea e ingreso laboral) y algunos casos (los ocupados, es decir, aquellos que han trabajado al menos una hora en la semana anterior al relevamiento).

#### Para resolver el LAB: 
    Investigar los métodos value_counts() y sort_values() de la clase DataFrame

### 1.1 Importamos los paquetes a usar

In [2]:
import pandas as pd

### 1.2 Importamos los datos a usar

In [3]:
df = pd.read_csv("C:/Users/n_sar/OneDrive/Escritorio/python_projects/proyecto3/data_filt.csv"
           , encoding = 'latin1')

## 2. Explorando el dataset

### 2.1. ¿Cuántas filas y cuántas columnas tiene el dataset?

In [4]:
print(df.info()) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23448 entries, 0 to 23447
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   ch06      23448 non-null  int64  
 1   nivel_ed  23448 non-null  object 
 2   htot      23448 non-null  int64  
 3   calif     23448 non-null  object 
 4   p47t      23448 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 916.1+ KB
None


### 2.2 ¿Qué información tiene el dataset? Imprimir el nombre de las columnas

In [5]:
df.columns.values

array(['ch06', 'nivel_ed', 'htot', 'calif', 'p47t'], dtype=object)

Los nombres de columna no son muy descriptivos de la información que contienen las mismas. Probemos cambiarlos por la siguiente lista: 

['edad', 'nivel_educativo', 'hs_trabajadas', 'calif_ocupacional', 'ingreso_ult_mes']

### 2.3 ¿Cómo está indexado el dataset?

In [6]:
df.rename( columns={"ch06" :'edad'}, inplace=True)
df.rename( columns={"nivel_ed" :'nivel_educativo'}, inplace=True)
df.rename( columns={"htot" :'hs_trabajadas'}, inplace=True)
df.rename( columns={"calif" :'calif_ocupacional'}, inplace=True)
df.rename( columns={"p47t" :'ingreso_ult_mes'}, inplace=True)
df

Unnamed: 0,edad,nivel_educativo,hs_trabajadas,calif_ocupacional,ingreso_ult_mes
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
3,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
4,45,1_H/Sec inc,44,2_Op./No calif.,9500.0
...,...,...,...,...,...
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0


### 2.4 ¿Cuál es el tipo de la cuarta columna?

In [7]:
df['calif_ocupacional'].dtype 

dtype('O')

### 2.4 ¿Cuál es el nivel educativo más común?

In [8]:
df["nivel_educativo"].value_counts()

2_Sec. comp y más    14634
1_H/Sec inc           8814
Name: nivel_educativo, dtype: int64

### 2.5 ¿Y cómo se distribuye la población según calificación? 

In [9]:
df["calif_ocupacional"].value_counts()

2_Op./No calif.    17372
1_Prof./Tecn.       6076
Name: calif_ocupacional, dtype: int64

### 2.6 ¿Cuál es el ingreso total de la población? 

In [10]:
df["ingreso_ult_mes"].sum()

190114176.0

### 2.4 ¿Cuál es el ingreso medio de la población? 

In [11]:
df["ingreso_ult_mes"].mean()

8107.905834186285

## 3. Indexando y ordenando los datos

### 3.1 Seleccionar la columna `nivel_educativo` e `ingreso_ult_mes` y asignarlas a un objeto nuevo llamado `df2`

In [12]:
df2=df[['nivel_educativo', 'ingreso_ult_mes']]
df2

Unnamed: 0,nivel_educativo,ingreso_ult_mes
0,1_H/Sec inc,6000.0
1,2_Sec. comp y más,5000.0
2,2_Sec. comp y más,5000.0
3,1_H/Sec inc,11000.0
4,1_H/Sec inc,9500.0
...,...,...
23443,2_Sec. comp y más,4000.0
23444,1_H/Sec inc,5000.0
23445,2_Sec. comp y más,13000.0
23446,1_H/Sec inc,4000.0


### 3.2 Seleccionar de df2 las primeras 20 filas

In [13]:
df2.head(20)

Unnamed: 0,nivel_educativo,ingreso_ult_mes
0,1_H/Sec inc,6000.0
1,2_Sec. comp y más,5000.0
2,2_Sec. comp y más,5000.0
3,1_H/Sec inc,11000.0
4,1_H/Sec inc,9500.0
5,2_Sec. comp y más,6000.0
6,2_Sec. comp y más,9000.0
7,1_H/Sec inc,4260.0
8,1_H/Sec inc,3800.0
9,2_Sec. comp y más,10517.0


### 3.2 Seleccionar de df una muestra aleatoria de 500 filas

In [14]:
df.sample(n=500, random_state=1)

Unnamed: 0,edad,nivel_educativo,hs_trabajadas,calif_ocupacional,ingreso_ult_mes
14513,36,1_H/Sec inc,15,2_Op./No calif.,2500.0
15803,44,2_Sec. comp y más,25,1_Prof./Tecn.,13000.0
8670,55,2_Sec. comp y más,40,2_Op./No calif.,11000.0
13826,42,2_Sec. comp y más,56,2_Op./No calif.,8000.0
9374,25,2_Sec. comp y más,8,2_Op./No calif.,1500.0
...,...,...,...,...,...
3847,43,2_Sec. comp y más,25,1_Prof./Tecn.,5300.0
20651,64,1_H/Sec inc,40,2_Op./No calif.,2000.0
7593,65,2_Sec. comp y más,40,1_Prof./Tecn.,13600.0
20556,30,2_Sec. comp y más,48,2_Op./No calif.,9000.0


### 3.4 Elegir todas las columnas, con excepción de nivel_educativo. Tip: Utilizar la propiedad columns para filtrar en la dimensión de las columnas.

In [15]:
df.drop("nivel_educativo",axis=1)

Unnamed: 0,edad,hs_trabajadas,calif_ocupacional,ingreso_ult_mes
0,46,45,2_Op./No calif.,6000.0
1,26,25,2_Op./No calif.,5000.0
2,47,25,2_Op./No calif.,5000.0
3,52,90,2_Op./No calif.,11000.0
4,45,44,2_Op./No calif.,9500.0
...,...,...,...,...
23443,45,50,2_Op./No calif.,4000.0
23444,58,30,2_Op./No calif.,5000.0
23445,36,40,2_Op./No calif.,13000.0
23446,49,40,2_Op./No calif.,4000.0


### 3.5 Ordenar el dataset según la edad

In [17]:
df.sort_values('edad')

Unnamed: 0,edad,nivel_educativo,hs_trabajadas,calif_ocupacional,ingreso_ult_mes
15308,12,1_H/Sec inc,7,2_Op./No calif.,250.0
19856,12,1_H/Sec inc,15,2_Op./No calif.,1200.0
20050,12,1_H/Sec inc,20,2_Op./No calif.,1600.0
5698,12,1_H/Sec inc,5,2_Op./No calif.,250.0
14556,13,1_H/Sec inc,14,2_Op./No calif.,800.0
...,...,...,...,...,...
4340,84,1_H/Sec inc,36,2_Op./No calif.,7500.0
23317,84,1_H/Sec inc,25,2_Op./No calif.,9900.0
16461,85,2_Sec. comp y más,40,1_Prof./Tecn.,20700.0
16954,85,2_Sec. comp y más,36,2_Op./No calif.,8250.0


### 3.6 ¿Cuál es el promedio de horas trabajadas de los jóvenes entre 14 y 25 años y poco calificados?

In [26]:
df3 = df.loc[df['calif_ocupacional'] == "2_Op./No calif."] 
df3 = df3.loc[df3['edad'] > 13] 
df3 = df3.loc[df3['edad'] < 26] 
promedio = df3["hs_trabajadas"].mean()  
print(promedio)


37.57085900688655


### 3.7 Generar un dataframe nuevo con los trabajadores que ganan más del promedio de ingresos general y están por debajo de la cantidad media de horas trabajadas. ¿Cuántos trabajadores se encuentran en esta condición? ¿Cuál es su edad mediana?

In [38]:
print(media_horas)
df4 = df.loc[(df['ingreso_ult_mes'] > df["ingreso_ult_mes"].mean()) & (df['hs_trabajadas'] < df['hs_trabajadas'].mean())] 
#df4
print(len(df4))  
print(df4["edad"].median())  

39.684535994541115
2132
44.0


# PRACTICA GUIADA 1: Objetos de Pandas
## Introducción

* Las filas y columnas están identificados con etiquetas, además de simples índices enteros
* Es importante entender las estructuras de **Pandas**.
* Tres estructuras importantes:
    + `Series`
    + `DataFrame`
    + `Index`

In [None]:
import numpy as np
import pandas as pd
# Objetos `Series` en Pandas
* Puede pensarse como una array de una sola dimensión indexado. 
* Puede ser creado desde una lista:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data
* Una ``Series`` encapsula tanto una secuencia de valores como una de índices.
* Podemos acceder a ellos con los atributos `values` e `index`
data.values
data.index
data[1]
data[1:3]
### ``Series`` como generalización de un array de  NumPy 
* La diferencia esencial con un array de Numpy es que mientras que el array tiene un índice entero *"implícitamente definido"*, una `Series` de Pandas tiene un índice asociado a los valores *que está definido de forma explícita*
* Este índice explícito le da a una `Series` capacidades adicionales.
* El índice explícito no tiene por qué ser un entero y tampoco todos sus valores tienen que ser necesariamente únicos.
* Pueden ser `strings` 
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data
* Y podemos acceder simplemente:
data['b']
data[1]
* O puede ser una secuencia no contigua de `int`s
* data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 1])
data
### ``Series`` como un `dict` especializado
* Un `dict` es una estructura que mapea un set de keys arbitrarias a un set de valores.
* Puede hacerse, entonces, una analogía entre una `Series` y un `dict`
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population
* Puede crearse una `Series` a partir de un `dict`: el índice se toma de las keys.
* Así, puede accederse de forma análoga a un `dict`.
population['California']
population[0]
# A diferencia de un `dict` una `Series` soporta algunas operaciones del estilo de un array, como por ejemplo, slicing. Notar que en este caso el endpoint es inclusivo:
population['California':'Florida']
# Si usamos el index implícito, el endpoint no se incluye en el slicing:
population[0:3]
# Podemos pasar una lista para generar los índices:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
states = pd.Series(states_pop, index= states_list)
states['Illinois':'New York']
# Construyendo objetos Series
# Podemos construir `Series` desde cero. La forma general de hacerlo es la siguiente:
 pd.Series(data, index=index)
```
# `index` es un argumento opcional y `data` puede ser varias cosas
# Una lista o un array de Numpy
pd.Series([2, 4, 6]) 
# Un escalar repetido a lo largo de un índice
pd.Series(5, index = [100, 200, 300]) 
# Un diccionario
pd.Series({2:'a', 1:'b', 3:'c'}) 
# En cada caso, podría usarse el índice explícitamente si lo que se busca es otro resultado
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2, 2, 2, 2, 3, 1]) 
# Objeto `DataFrame`
* Otra estructura fundamental. 
* También puede ser pensada como una generalización de un array de NumPy o como un tipo especial de diccionario.
 
# `DataFrame` como un array de Numpy
* Un `DataFrame` es un tipo análogo a una `Series` en dos dimensiones y, por lo tanto, puede ser una pensado tanto como una generalización de un array de Numpy o como un conjunto de `Series` alineados. Es decir, que tienen el mismo índice.
* Para demostrar esto generemos una `Serie` con el área de algunos estados:

area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area
# Ahora, podemos usar un diccionario para construir un objeto bidimensional conteniendo toda la información.
states = pd.DataFrame({'population': population,
                       'area': area})
states
# Al igual que las ``Series``, un ``DataFrame`` posee un atributo ``index``:
states.index
# Además, tiene un atributo ``columns``, que es un objeto ``Index`` conteniendo las etiquetas de columnas:
states.columns
# DataFrame como un diccionario especializado
# De forma similar, podemos pensar al `DataFrame` como un diccionario: 
    
    - Un diccionario mapea una key con un valor
    - Un `DataFrame` mapea un nombre de columna con una `Series` de datos.
    
# Podemos acceder a una `Series` a través del índice asociado de forma similar a los arrays de Numpy: con los `[]`     
# Por ejemplo, pedir el atributo `area` del `DataFrame` `states` devuelve una `Series`. 
#  Construyendo objetos `DataFram
pd.DataFrame(population, columns=['population'])

# Desde una lista de dicts
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)


# otar que incluso si alguna key está perdida en el diccionario, Pandas llena con `NaN` el valor:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

# Desde un array Numpy de dos dimensiones
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

np.random.rand(3, 2)


In [None]:

# El objeto `Index`
# Un `Index` puede ser pensado como un _array inmutable_  o como un set ordenado
#Para ilustrar las implicancias de este punto pensemos en el siguiente ejemplo en el que construimos un `Index` desde una lista de enteros.
# Los `DataFrames` tienen un `Index` que describe a las filas y otro que describe a las columnas. 
# Al  `Index` de filas se accede con `df.index` y al de columna `df.columns`.

# `Index` como una array inmutable. Podemos indexar y hacer slicing de forma similar a un array
ind = pd.Index([2, 3, 5, 7, 11])
ind

ind[1]
ind[::2]
# Los `Index` tienen atributos similares a los arrays de Numpy
print(ind.size, ind.shape, ind.ndim, ind.dtype)
# Una diferencia entre los ``Index`` y los arrays de NumPy es que los primeros son *inmutables*:
ind[1] = 0

In [None]:
# `Index` como un set ordenado.  Se pueden utilizar operaciones de conjuntos con los ``Index`` siguiendo las convenciones de Python
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])
indA & indB  # intersection
indA | indB  # union
indA ^ indB  # symmetric difference
indA.difference(indB) # indA - indB
# set(indA)-set(indB)

In [None]:
# Pequeño paréntesis sobre conjuntos en Python:
setA = set([1, 3, 5, 7, 9])
setB = set([2, 3, 5, 7, 11])
setA - setB
setA | setB
setA & setB
setA ^ setB

## Geo Pandas

In [None]:
# Librerías
#pip3 install geopandas
#conda install geopandas
import geopandas as gpd
import matplotlib.pyplot as plt
import pandas as pd

# Lee los datos de los límites de los países
paises = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))
# Ver el listado completo
pd.set_option('display.max_rows', 200)
paises.name

# Crea una figura y un eje
fig, ax = plt.subplots(figsize=(10, 6))
# Dibuja los países en el mapa
paises.plot(ax=ax)
# Muestra el mapa
plt.show()

# Crear un diccionario con los datos
datos = {'Pais': ['Mexico', 'United States of America', 'Canada', 'Argentina', 'Chile', 'Spain'],
         'Ventas': [1000, 2000, 1500, 800, 1200, 500]}
# Crear el dataframe
ventas = pd.DataFrame(datos)
ventas

# Unir los datos de los países con los datos de ventas por país
paises_ventas = paises.merge(ventas, left_on='name', right_on='Pais')
paises_ventas

# Crear una figura y un eje
fig, ax = plt.subplots(figsize=(10, 6))
# Dibujar los países en el mapa y colorearlos según las ventas
paises_ventas.plot(ax=ax, column='Ventas', cmap='Blues', linewidth=0.8, edgecolor='black', legend=True)
# Añadir un título al mapa
ax.set_title('Ventas por país')
plt.show()
