<a href="https://colab.research.google.com/github/ornenovino/python_course_eim/blob/main/intro_py_m2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a la programación en python

# Módulo 2: Análisis de datos con Python

Manipulación y limpieza de datos, trabajo con módulos y librerías populares como NumPy y Pandas para el análisis y la manipulación de datos en formato tabular.

## Librerías

Una librería de Python es un conjunto de módulos que contienen funciones, clases y objetos que pueden ser reutilizados para realizar tareas comunes. Estas librerías proporcionan una forma rápida y eficiente de implementar código sin necesidad de escribir todo desde cero. Algunos ejemplos comunes de librerías en Python incluyen matplotlib, NumPy, SciPy y Pandas.

Para poder utilizar estas liberías hay que instalarlas, pero al estar trabajando en Google Collab la gran mayoría de las más utilizadas se encuentran disponibles.

In [None]:
# Para poder utilizar los metodos de estas librerias es necesario importarlas
import numpy

# Para simplificar se pueden importar agregandoles un alias
import numpy as np

In [None]:
# random.randint son funciones que pertenecen a la libreria NumPy para poder
# llamarlas y utilizarlas se debe de mencionar a la libería antes

matriz = np.random.randint(0, 10, (3, 3))
print(matriz)

## NumPy

Numpy es una biblioteca de Python que proporciona un objeto de matriz multidimensional y herramientas para trabajar con él. Se utiliza principalmente para realizar cálculos numéricos y estadísticos.

In [None]:
# Se pueden realizar arreglos unidimensionales
m_unidimencional = np.array([2,6,8,10,12,14])
type(m_unidimencional)

In [None]:
# Al mismo tiempo que se pueden realizar operaciones con las mismas
m_unidimencional ** 2

In [None]:
# Tambien arreglos bidimensionales llamados matrices

matriz1 = np.array([[1,2,3], [4,5,6], [7,8,9]]) 
print(matriz1) 

# Y sumar sus elementos
matriz2 = np.array([[1,2,3], [4,5,6], [7,8,9]]) 
suma = np.sum(matriz2) 
print(suma) 

In [None]:
# Tambien se puede acceder a sus elementos mediante el slicing
matriz1[0]
matriz1[0:2]

## Pandas

Pandas es una biblioteca de código abierto de Python que proporciona estructuras de datos y herramientas de análisis de alto rendimiento y fáciles de usar. Está diseñado para hacer trabajar con datos tabulares. Pandas se usa a menudo en análisis financiero, ciencia de datos, análisis estadístico y machine learning.

### Importando datos

Para poder trabajar con datos tenemos que almacenarlos en variables dentro de Python. Es por eso que la importación de los mismos es crucial.

In [None]:
import pandas as pd

La función `.read_excel` nos permite importar y cargar en la memoria de Python un archivo de Excel. También la `.read_csv()` para archivos CSV y también TSB especificando el separador. Incluso podemos leer páginas web con `.read_html()`

In [None]:
# Podemos leer distintos tipos de archivos en formato tabular para trabajar con los mismos
# Primero debemos almacenarlos en una variable
titanic = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv') 
titanic.head()

In [None]:
type(titanic)

### Estádisticos descriptivos

In [None]:
titanic['Age'].mean() # la media de la edad

In [None]:
titanic['Age'].describe() # incluso hacer lo mismo que con el dataset pero solo para una variable

In [None]:
titanic.groupby('Sex')['Age'].mean() # con .groupby() podemos agrupar por una variable y luego agregarle la media de la edad

In [None]:
titanic.groupby(['Sex', 'Pclass'])['Age'].mean() # o agrupar por mas de una

### Filtros

Pandas también nos permite filtrar nuestra data para trabajar con subsets de la misma.

In [None]:
ages = titanic["Age"] # podemos quedarnos con simplemente una columna
ages.head()

In [None]:
over_20 = titanic[titanic["Age"] > 20] # o quedarnos con aquellos que tienen mas de 20
over_20.head()

In [None]:
titanic[titanic["Sex"] == "female"]

In [None]:
cabin = titanic[titanic["Cabin"].isin(['C85', 'C123'])] # o aquellos en la cabina c85 o c123
cabin.groupby('Cabin').count()

### Reshaping la data

In [None]:
titanic["Fare"] = titanic["Fare"] * 2 # podemos modificar los valores de los precios * 2
titanic.head()

In [None]:
# se pueden renombrar las columnas
titanic_new_columns = titanic.rename(
    columns={
        "Survived": "Sobrevivio",
        "Pclass": "Clase",
        "Fare": "Precio",
    }
) 

titanic_new_columns.head() 

## Análisis sobre datos de opinión pública en Uruguay

Utilizaremos una base de datos que contiene información sobre opinión pública del Uruguay localizada en el siguiente repositorio:
https://github.com/Nicolas-Schmidt/opuy
Si pueden mirenlo, esta bastante copado para trabajar en R pero también se puede acceder a la data del paquete en Python.

La documentación del paquete nos brinda un diccionario de atributos para conocer que es cada uno:
https://github.com/Nicolas-Schmidt/opuy/blob/master/man/figures/Manual_opuy.pdf

In [None]:
df = pd.read_excel('https://github.com/Nicolas-Schmidt/opuy/blob/d211b76157aa2616367ce4010f859b9dbac27ff4/data-raw/opuy.xlsx?raw=true') 
df.head()

In [None]:
fa_cosse = df[(df['candidato'] == 'Carolina Cosse')]

fa_cosse.groupby(['anio_medicion'])['valor'].mean() # promedio de intencion de voto a Carolina Cosse por año

In [None]:
fa_pn_19 = df[
    (df['tipo_eleccion'] == 'Nacional') & 
    (df['partido'] == 'Frente Amplio') | 
    (df['partido'] == 'Partido Nacional') & 
    (df['medicion'] == 'Intencion de voto') & 
    (df['anio_medicion'] == 2019)]
fa_pn_19.groupby(['partido', 'empresa'])['valor'].mean() # promedio de intencion de voto por partido y empresa para el 2019

In [None]:
df_19 = df[df['anio_medicion'] == 2019]
pd.crosstab(df_19['candidato'], df_19['empresa']) # cuantas veces aparece por empresa los candidatos en el datset

In [None]:
pd.crosstab(df_19['candidato'], df_19['empresa'], margins = True) # incluso agregar el total

## Análisis de encuestas

Stackoverflow hace una encuesta anual a desarrolladores de software, en este caso la utilizaremos para realizar un análisis de encuesta. https://insights.stackoverflow.com/survey

In [None]:
df = pd.read_csv('/content/drive/MyDrive/python_intro/survey_results_public.csv')

In [None]:
df.head()

In [None]:
# Separando los datos de respuestas multiples en varias columnas
df[["employment_0", "employment_1", 'employment_2', 'employment_3', 'employment_4', 'employment_5', 'employment_6']] = df["Employment"].str.split(",", expand=True)

In [None]:
df.head()

In [None]:
# Filtramos por desarrolladores y que codean por hobby
dev = df[
    (df['MainBranch'] == 'I am a developer by profession') &
    (df['CodingActivities'] == 'Hobby')]

# Hacemos un crosstab para saber el tipo de empleo y el tipo de trabajo
pd.crosstab(
    dev['employment_0'], 
    dev['RemoteWork'],
    margins = True,
    margins_name = 'total') # agregamos los totales

In [None]:
# Podemos modificar los nombres
pd.crosstab(
    dev['employment_0'], 
    dev['RemoteWork'],
    rownames=['Empleo'], 
    colnames=['Tipo de empleo']
)

In [None]:
# Podemos ver los datos en proporciones 
pd.crosstab(
    dev['employment_0'], 
    dev['RemoteWork'],
    rownames=['Empleo'], 
    colnames=['Tipo de empleo'],
    margins = True,
    normalize = 'index' # por filas, con 'columns' es por columna, si es 'true' es por total de la tabla
).style.format('{:.2%}') # formato %

In [None]:
# incluso podemos agregar mas variables
pd.crosstab(
    df['employment_0'], 
    [df['RemoteWork'], df['SurveyEase']]
)