<a href="https://colab.research.google.com/github/ornenovino/python_course_eim/blob/main/intro_py_m2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a la programación en python

# Módulo 2: Análisis de datos con Python

Manipulación y limpieza de datos, trabajo con módulos y librerías populares como NumPy y Pandas para el análisis y la manipulación de datos en formato tabular.

## Librerías

Una librería de Python es un conjunto de módulos que contienen funciones, clases y objetos que pueden ser reutilizados para realizar tareas comunes. Estas librerías proporcionan una forma rápida y eficiente de implementar código sin necesidad de escribir todo desde cero. Algunos ejemplos comunes de librerías en Python incluyen matplotlib, NumPy, SciPy y Pandas.

Para poder utilizar estas liberías hay que instalarlas, pero al estar trabajando en Google Collab la gran mayoría de las más utilizadas se encuentran disponibles.

In [None]:
# Para poder utilizar los metodos de estas librerias es necesario importarlas
import numpy

# Para simplificar se pueden importar agregandoles un alias
import numpy as np

In [None]:
# random.randint son funciones que pertenecen a la libreria NumPy para poder
# llamarlas y utilizarlas se debe de mencionar a la libería antes

matriz = np.random.randint(0, 10, (3, 3))
print(matriz)

## NumPy

Numpy es una biblioteca de Python que proporciona un objeto de matriz multidimensional y herramientas para trabajar con él. Se utiliza principalmente para realizar cálculos numéricos y estadísticos.

In [None]:
# Se pueden realizar arreglos unidimensionales
m_unidimencional = np.array([2,6,8,10,12,14])
type(m_unidimencional)

In [None]:
# Al mismo tiempo que se pueden realizar operaciones con las mismas
m_unidimencional ** 2

In [None]:
# Tambien arreglos bidimensionales llamados matrices

matriz1 = np.array([[1,2,3], [4,5,6], [7,8,9]]) 
print(matriz1) 

# Y sumar sus elementos
matriz2 = np.array([[1,2,3], [4,5,6], [7,8,9]]) 
suma = np.sum(matriz2) 
print(suma) 

In [None]:
# Tambien se puede acceder a sus elementos mediante el slicing
matriz1[0]
matriz1[0:2]

## Pandas

Pandas es una biblioteca de código abierto de Python que proporciona estructuras de datos y herramientas de análisis de alto rendimiento y fáciles de usar. Está diseñado para hacer trabajar con datos tabulares. Pandas se usa a menudo en análisis financiero, ciencia de datos, análisis estadístico y machine learning.

### Importando datos

Para poder trabajar con datos tenemos que almacenarlos en variables dentro de Python. Es por eso que la importación de los mismos es crucial.

In [None]:
import pandas as pd

La función `.read_excel` nos permite importar y cargar en la memoria de Python un archivo de Excel. También la `.read_csv()` para archivos CSV y también TSB especificando el separador. Incluso podemos leer páginas web con `.read_html()`

In [None]:
# Podemos leer distintos tipos de archivos en formato tabular para trabajar con los mismos
# Primero debemos almacenarlos en una variable
titanic = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv') 
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Estádisticos descriptivos

In [None]:
titanic['Age'].mean() # la media de la edad

In [None]:
titanic['Age'].describe() # incluso hacer lo mismo que con el dataset pero solo para una variable

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

In [None]:
titanic.groupby('Sex')['Age'].mean() # con .groupby() podemos agrupar por una variable y luego agregarle la media de la edad

In [None]:
titanic.groupby(['Sex', 'Pclass'])['Age'].mean() # o agrupar por mas de una

### Filtros

Pandas también nos permite filtrar nuestra data para trabajar con subsets de la misma.

In [None]:
ages = titanic["Age"] # podemos quedarnos con simplemente una columna
ages.head()

In [None]:
over_20 = titanic[titanic["Age"] > 20] # o quedarnos con aquellos que tienen mas de 20
over_20.head()

In [None]:
cabin = titanic[titanic["Cabin"].isin(['C85', 'C123'])] # o aquellos en la cabina c85 o c123
cabin.groupby('Cabin').count()

### Reshaping la data

In [None]:
titanic["Fare"] = titanic["Fare"] * 2 # podemos modificar los valores de los precios * 2
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,29.0,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,285.1332,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,31.7,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,212.4,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,32.2,,S


In [None]:
# se pueden renombrar las columnas
titanic_new_columns = titanic.rename(
    columns={
        "Survived": "Sobrevivio",
        "Pclass": "Clase",
        "Fare": "Precio",
    }
) 

titanic_new_columns.head() 

Unnamed: 0,PassengerId,Sobrevivio,Clase,Name,Sex,Age,SibSp,Parch,Ticket,Precio,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,29.0,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,285.1332,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,31.7,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,212.4,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,32.2,,S


## Análisis sobre datos de opinión pública en Uruguay

Utilizaremos una base de datos que contiene información sobre opinión pública del Uruguay localizada en el siguiente repositorio:
https://github.com/Nicolas-Schmidt/opuy
Si pueden mirenlo, esta bastante copado para trabajar en R pero también se puede acceder a la data del paquete en Python.

La documentación del paquete nos brinda un diccionario de atributos para conocer que es cada uno:
https://github.com/Nicolas-Schmidt/opuy/blob/master/man/figures/Manual_opuy.pdf

In [None]:
df = pd.read_excel('https://github.com/Nicolas-Schmidt/opuy/blob/d211b76157aa2616367ce4010f859b9dbac27ff4/data-raw/opuy.xlsx?raw=true') 
fa_cosse = df[(df['candidato'] == 'Carolina Cosse')]


fa_cosse.groupby(['anio_medicion'])['valor'].mean() # promedio de intencion de voto a Carolina Cosse por año

anio_medicion
2018    25.400000
2019    27.095238
Name: valor, dtype: float64

In [None]:
fa_pn_19 = df[
    (df['tipo_eleccion'] == 'Nacional') & 
    (df['partido'] == 'Frente Amplio') | 
    (df['partido'] == 'Partido Nacional') & 
    (df['medicion'] == 'Intencion de voto') & 
    (df['anio_medicion'] == 2019)]
fa_pn_19.groupby(['partido', 'empresa'])['valor'].mean() # promedio de intencion de voto por partido y empresa para el 2019

partido           empresa     
Frente Amplio     Cifra           36.000000
                  Equipos         34.024255
                  Factum          38.025000
                  Interconsult    41.201754
                  Opcion          31.007407
                  Radar           38.923729
Partido Nacional  Cifra           21.433333
                  Equipos         25.628000
                  Factum          23.900000
                  Opcion          22.843750
                  Radar           22.446512
Name: valor, dtype: float64

In [None]:
df_19 = df[df['anio_medicion'] == 2019]
pd.crosstab(df_19['candidato'], df_19['empresa']) # cuantas veces aparece por empresa los candidatos en el datset

empresa,Cifra,Equipos,Factum,Opcion,Radar
candidato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Blanco o anulado,1,3,1,2,2
Carolina Cosse,4,3,4,4,6
Daniel Martinez,5,6,5,6,8
Enrique Antia,4,3,5,4,6
Ernesto Talvi,4,3,5,4,6
Jorge Larrañaga,4,3,5,4,6
Jose Amorin Batlle,3,3,5,4,6
Juan Sartori,4,3,5,4,6
Julio Maria Sanguinetti,4,3,5,4,6
Luis Lacalle Pou,5,6,6,6,8


In [None]:
pd.crosstab(df_19['candidato'], df_19['empresa'], margins = True) # incluso agregar el total

empresa,Cifra,Equipos,Factum,Opcion,Radar,All
candidato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Blanco o anulado,1,3,1,2,2,9
Carolina Cosse,4,3,4,4,6,21
Daniel Martinez,5,6,5,6,8,30
Enrique Antia,4,3,5,4,6,22
Ernesto Talvi,4,3,5,4,6,22
Jorge Larrañaga,4,3,5,4,6,22
Jose Amorin Batlle,3,3,5,4,6,21
Juan Sartori,4,3,5,4,6,22
Julio Maria Sanguinetti,4,3,5,4,6,22
Luis Lacalle Pou,5,6,6,6,8,31


## Análisis de encuestas

Stackoverflow hace una encuesta anual a desarrolladores de software, en este caso la utilizaremos para realizar un análisis de encuesta. https://insights.stackoverflow.com/survey

In [None]:
df = pd.read_csv('/content/drive/MyDrive/python_intro/survey_results_public.csv')

In [None]:
df.head()

Unnamed: 0,ResponseId,MainBranch,Employment,RemoteWork,CodingActivities,EdLevel,LearnCode,LearnCodeOnline,LearnCodeCoursesCert,YearsCode,...,TimeSearching,TimeAnswering,Onboarding,ProfessionalTech,TrueFalse_1,TrueFalse_2,TrueFalse_3,SurveyLength,SurveyEase,ConvertedCompYearly
0,1,None of these,,,,,,,,,...,,,,,,,,,,
1,2,I am a developer by profession,"Employed, full-time",Fully remote,Hobby;Contribute to open-source projects,,,,,,...,,,,,,,,Too long,Difficult,
2,3,"I am not primarily a developer, but I write co...","Employed, full-time","Hybrid (some remote, some in-person)",Hobby,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",Books / Physical media;Friend or family member...,Technical documentation;Blogs;Programming Game...,,14.0,...,,,,,,,,Appropriate in length,Neither easy nor difficult,40205.0
3,4,I am a developer by profession,"Employed, full-time",Fully remote,I don’t code outside of work,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","Books / Physical media;School (i.e., Universit...",,,20.0,...,,,,,,,,Appropriate in length,Easy,215232.0
4,5,I am a developer by profession,"Employed, full-time","Hybrid (some remote, some in-person)",Hobby,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","Other online resources (e.g., videos, blogs, f...",Technical documentation;Blogs;Stack Overflow;O...,,8.0,...,,,,,,,,Too long,Easy,


In [None]:
# Separando los datos de respuestas multiples en varias columnas
df[["employment_0", "employment_1", 'employment_2', 'employment_3', 'employment_4', 'employment_5', 'employment_6']] = df["Employment"].str.split(",", expand=True)

In [None]:
df.head()

Unnamed: 0,ResponseId,MainBranch,Employment,RemoteWork,CodingActivities,EdLevel,LearnCode,LearnCodeOnline,LearnCodeCoursesCert,YearsCode,...,SurveyLength,SurveyEase,ConvertedCompYearly,employment_0,employment_1,employment_2,employment_3,employment_4,employment_5,employment_6
0,1,None of these,,,,,,,,,...,,,,,,,,,,
1,2,I am a developer by profession,"Employed, full-time",Fully remote,Hobby;Contribute to open-source projects,,,,,,...,Too long,Difficult,,Employed,full-time,,,,,
2,3,"I am not primarily a developer, but I write co...","Employed, full-time","Hybrid (some remote, some in-person)",Hobby,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",Books / Physical media;Friend or family member...,Technical documentation;Blogs;Programming Game...,,14.0,...,Appropriate in length,Neither easy nor difficult,40205.0,Employed,full-time,,,,,
3,4,I am a developer by profession,"Employed, full-time",Fully remote,I don’t code outside of work,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","Books / Physical media;School (i.e., Universit...",,,20.0,...,Appropriate in length,Easy,215232.0,Employed,full-time,,,,,
4,5,I am a developer by profession,"Employed, full-time","Hybrid (some remote, some in-person)",Hobby,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","Other online resources (e.g., videos, blogs, f...",Technical documentation;Blogs;Stack Overflow;O...,,8.0,...,Too long,Easy,,Employed,full-time,,,,,


In [None]:
# Filtramos por desarrolladores y que codean por hobby
dev = df[
    (df['MainBranch'] == 'I am a developer by profession') &
    (df['CodingActivities'] == 'Hobby')]

# Hacemos un crosstab para saber el tipo de empleo y el tipo de trabajo
pd.crosstab(
    dev['employment_0'], 
    dev['RemoteWork'],
    margins = True,
    margins_name = 'total') # agregamos los totales

RemoteWork,Full in-person,Fully remote,"Hybrid (some remote, some in-person)",total
employment_0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Employed,39,176,190,405
Independent contractor,1,12,3,16
Not employed,0,1,1,2
Student,3,8,11,22
total,43,197,205,445


In [None]:
# Podemos modificar los nombres
pd.crosstab(
    dev['employment_0'], 
    dev['RemoteWork'],
    rownames=['Empleo'], 
    colnames=['Tipo de empleo']
)

Tipo de empleo,Full in-person,Fully remote,"Hybrid (some remote, some in-person)"
Empleo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Employed,39,176,190
Independent contractor,1,12,3
Not employed,0,1,1
Student,3,8,11


In [None]:
# Podemos ver los datos en proporciones 
pd.crosstab(
    dev['employment_0'], 
    dev['RemoteWork'],
    rownames=['Empleo'], 
    colnames=['Tipo de empleo'],
    margins = True,
    normalize = 'index' # por filas, con 'columns' es por columna, si es 'true' es por total de la tabla
).style.format('{:.2%}') # formato %

Tipo de empleo,Full in-person,Fully remote,"Hybrid (some remote, some in-person)"
Empleo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Employed,9.63%,43.46%,46.91%
Independent contractor,6.25%,75.00%,18.75%
Not employed,0.00%,50.00%,50.00%
Student,13.64%,36.36%,50.00%
All,9.66%,44.27%,46.07%


In [None]:
# incluso podemos agregar mas variables
pd.crosstab(
    df['employment_0'], 
    [df['RemoteWork'], df['SurveyEase']]
)

RemoteWork,Full in-person,Full in-person,Full in-person,Fully remote,Fully remote,Fully remote,"Hybrid (some remote, some in-person)","Hybrid (some remote, some in-person)","Hybrid (some remote, some in-person)"
SurveyEase,Difficult,Easy,Neither easy nor difficult,Difficult,Easy,Neither easy nor difficult,Difficult,Easy,Neither easy nor difficult
employment_0,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Employed,1,75,28,4,341,137,2,353,123
Independent contractor,0,2,0,0,44,15,0,12,3
Not employed,0,0,0,0,3,0,0,1,0
Student,0,15,0,0,18,5,0,23,4


In [None]:

pd.crosstab(df['region'], df['product_category'], )

In [None]:
(df['Employment'].str.contains("full-time"))

# Ejercicios

In [None]:
# 1. Cargar datos de cualquier encuesta
encuesta = pd.read...

In [None]:
# 2. Cambiar los nombres de al menos dos columnas
encuesta = encuesta...()

In [None]:
# 3. Calcular la media y la variación de una columna
media = encuesta[...].()
var = encuesta[...].()

In [None]:
# 4. Realizar un filtro de una columna y almacenarlo en una variable
encuesta_filtrada = encuesta[]

In [None]:
# 5. Realizar un crosstab
pd.crosstab(
    ...
)