# Practica Libraria Pandas - Python #

### Importar Pandas y Matplotlib ###

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

### Crear un dataframe a partir de un diccionario ###

In [None]:

#dicconario con datos
dic_data = {"Nombre":["Jose","Alvaro","Manuel","Ramon","Rafael"],"Edad":[18,19,20,18,17],"Calificacion":[15,16,18,19,11]}

#Contruir un datadrame a partir de un diccionario
df=pd.DataFrame(dic_data)

df

### Crear un dataframe a partir de listas ###

In [None]:
#Seran las columnas del dataframe
col=["Nombre", "Edad", "Calificacion"]

#seran las filas del dataframe, sin la primera, que sera como la etiqueta
alumno1=["Jose",18,15]
alumno2=["alvaro",19,16]
alumno3=["Manuel",20,18]
alumno4=["Ramon",18,19]
alumno5=["Rafael",17,11]

df=pd.DataFrame([alumno1,alumno2,alumno3,alumno4,alumno5],columns=col)

df

### Dataframe usando zip ###

In [None]:
col=["Nombre", "Edad", "Calificacion"]

Nombre=["Jose","Alvaro","Manuel","Ramon","Rafael"]
Edad=[18,19,20,18,17]
Calificacion=[15,16,18,19,11]

#la funcion zip crea tuplas con los valores dentro de nombre,edad,calificacion y luego con list pasan a ser listas
df=pd.DataFrame(list(zip(Nombre,Edad,Calificacion)), columns=col)

df

### Agregar columnas a un dataframe ###

In [None]:
df["Pais"]=["Colombia","Venezuela","Ecuador","Colombia","Colombia"]

df

In [None]:
df=df.assign(Sueldo=[20000,25000,36000,45000,12000])

df

In [None]:
df.insert(2,'Colegio',["Marista","La Salle","La Salle","Maristas","Maristas"], True)

df

### Seleccionar filas a un dataframe ###

In [None]:
condicion = df["Nombre"]=="Jose"
print(condicion)
df[condicion]

In [None]:
condicion = df.Edad.isin([16,17,19])
print(condicion)
df[condicion]

In [None]:
df.iloc[[0,2],:]

In [None]:
#Se selecciona por indice
df.loc[[0,3],["Nombre","Edad","Colegio"]]

### Importar  archivo CSV ###

In [None]:
df_avocado = pd.read_csv("avocado.csv")

#muesta los primeras 8 filas
df_avocado.head(6)

In [None]:
#index elimina las primeras 2 filas
df_avocado = pd.read_csv("avocado.csv", index_col=1)

#muesta los primeras 4 ultimas filas
df_avocado.tail(4)

In [None]:
#index usa como indice las fechas
df_avocado = pd.read_csv("avocado.csv", index_col=["Date"])

#muesta los primeras 4 ultimas filas
df_avocado.head()

### Graficas Matplotlib ###

In [None]:
#Agarrar los datos de Chicago y ordenar las fechas
df_avocado = pd.read_csv("avocado.csv")

#cambia el formato de fechas --> año - mes - dia
#se cambio el formato, para poder ordenar por fechas
df_fechas = pd.to_datetime(df_avocado['Date']).dt.strftime('%Y-%m-%d')
df_avocado["Fecha"] = df_fechas

#Elimina la columna Date
df_avocado = df_avocado.drop(['Date'], axis=1)

#guarda en df_chicago las columnas que tengan por region chicago
df_chicago = df_avocado[df_avocado["region"]=="Chicago"]

#Primero se coloca a fecha como indice y luego se ordena
df_chicago = df_chicago.set_index("Fecha")
df_chicago = df_chicago.sort_values(by="Fecha")

df_chicago.head()

In [None]:
MAX_SAMPLES=75

precio = df_chicago["AveragePrice"][: MAX_SAMPLES]
plt.plot(precio, label="Precio Medio")
#voltea las etiquetas del eje x 90 grados
plt.xticks(rotation=90)
plt.title("Precio del Aguacate Vs. Tiempo")
plt.xlabel("Fecha")
plt.ylabel("Precio")
plt.show()

In [None]:
MAX_SAMPLES=75
df_atlanta = df_avocado[df_avocado["region"]=="Atlanta"]

precio = df_atlanta["AveragePrice"]
Volumen = df_atlanta["Total Volume"]

bolsadeaguacate = df_atlanta["Total Bags"]
sbolsas = df_atlanta["Small Bags"]
lbolsas = df_atlanta["Large Bags"]
xbolsas = df_atlanta["XLarge Bags"]

plt.subplot(2,2,1)
plt.plot(precio, label="Precio", color="green")
plt.title("Precio del Aguacate Vs. Tiempo")
plt.legend()

plt.subplot(2,2,2)
plt.plot(Volumen, label="Volumen", color="red")
plt.title("Volumen de Aguacates")
plt.legend()

plt.subplot(2,2,3)
plt.plot(bolsadeaguacate, label="Bolsas Totales", color="blue")
plt.title("Bolsas Torales de Aguacates")
plt.legend()

plt.subplot(2,2,4)
plt.plot(sbolsas, label="Bolsas s", color="black")
plt.plot(lbolsas, label="Bolsas l", color="cyan")
plt.plot(xbolsas, label="Bolsas xl", color="yellow")
plt.title("Bolsas Por Tamaño")
plt.legend()

plt.tight_layout()
plt.show()

### Analisis de encuesta de lenguajes de programacion ###

In [2]:
df_survey = pd.read_csv("survey_results_public.csv", index_col="ResponseId")
df_surveys = pd.read_csv("survey_results_schema.csv")


In [3]:
languages = "LanguageHaveWorkedWith"
salary = "ConvertedCompYearly"

In [4]:
#cambia los nombre de la columna LanguageHaveWorkedWith y ConvertedCompYearly
df_survey.rename(columns={languages: "Languages", salary: "Salary"}, inplace=True)

In [5]:
#Elimina los Nan de Languages y de Salary
df_survey.dropna(subset=['Languages', 'Salary'], inplace=True)

In [6]:
#Toma solo las columnas Country Salary y Languages, y las ordena por salario
df_survey = df_survey.loc[:,["Country","Salary","Languages"]].sort_values(by="Salary")
df_survey.head()

Unnamed: 0_level_0,Country,Salary,Languages
ResponseId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
65743,India,1.0,C;C++;Java;Python
52006,Viet Nam,1.0,C#;JavaScript;PHP
19913,Belgium,1.0,Java;PowerShell;Python;SQL;TypeScript
39916,India,1.0,Assembly;C#;HTML/CSS;JavaScript;MATLAB;PowerSh...
36436,Japan,3.0,C#;HTML/CSS;Java;JavaScript;Python;TypeScript


In [7]:
#condicional para filtrar los valores de salarios
filtro = (df_survey["Salary"] >= 10000) & (df_survey["Salary"]< 1e6)
df_survey = df_survey[filtro]

df_survey.head()

Unnamed: 0_level_0,Country,Salary,Languages
ResponseId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
42161,Turkey,10000.0,Delphi
64088,United States of America,10000.0,Bash/Shell;C;C#;HTML/CSS;JavaScript;PHP;Python...
3223,United States of America,10000.0,Bash/Shell;C;C#;HTML/CSS;Java;JavaScript;Lua;P...
51614,United States of America,10000.0,Bash/Shell;HTML/CSS;JavaScript;PHP;Python;SQL
37271,United States of America,10000.0,Bash/Shell;C++;HTML/CSS;JavaScript;PHP;TypeScript


In [8]:
#Crea una lista con todos los lenguajes de programacion en la encuesta
lengua = df_survey["Languages"]

all_languages=["Python"]
for  i in lengua:
    for l in i.split(";"):
        print(l)
        if l in all_languages:
            continue
        else:
            all_languages.append(l)

 
        

Delphi
Bash/Shell
C
C#
HTML/CSS
JavaScript
PHP
Python
SQL
TypeScript
Bash/Shell
C
C#
HTML/CSS
Java
JavaScript
Lua
Python
SQL
Bash/Shell
HTML/CSS
JavaScript
PHP
Python
SQL
Bash/Shell
C++
HTML/CSS
JavaScript
PHP
TypeScript
Bash/Shell
Fortran
MATLAB
Python
R
HTML/CSS
JavaScript
PHP
SQL
C#
SQL
C
C++
HTML/CSS
Java
JavaScript
Python
Ruby
JavaScript
Python
SQL
C
C++
HTML/CSS
JavaScript
Perl
PHP
Python
Ruby
SQL
C#
HTML/CSS
JavaScript
PowerShell
SQL
TypeScript
HTML/CSS
JavaScript
TypeScript
Elixir
Erlang
Groovy
HTML/CSS
Java
JavaScript
MATLAB
Objective-C
PHP
Python
SQL
HTML/CSS
JavaScript
PHP
SQL
PHP
HTML/CSS
JavaScript
Bash/Shell
HTML/CSS
JavaScript
PHP
Dart
Java
Kotlin
C#
HTML/CSS
JavaScript
R
SQL
PowerShell
Python
SQL
C
Dart
HTML/CSS
Java
JavaScript
HTML/CSS
JavaScript
PHP
SQL
HTML/CSS
JavaScript
Python
Solidity
TypeScript
Dart
HTML/CSS
JavaScript
PHP
Python
SQL
TypeScript
HTML/CSS
JavaScript
PHP
TypeScript
Dart
HTML/CSS
JavaScript
PHP
Python
HTML/CSS
JavaScript
PHP
C
C++
HTML/CSS
JavaScript

In [14]:
type(all_languages)

list

In [9]:
meanSalary = pd.DataFrame(data = np.zeros(len(all_languages)), index = all_languages, columns = ["Salary"])
meanSalary

Unnamed: 0,Salary
Python,0.0
Delphi,0.0
Bash/Shell,0.0
C,0.0
C#,0.0
HTML/CSS,0.0
JavaScript,0.0
PHP,0.0
SQL,0.0
TypeScript,0.0


In [None]:
#comentario: pense en hacerlo con fuerza bruta, pero mi pc no lo pudo correr
#Calculo de Salario medio para cada lenguaje
#lista1=[]
#for i in all_languages:
#    lista=[]
#    for l,m in enumerate(lengua):
#        for k in m.split(";"):
#            if i == k:
#                lista.append(df_survey["Salary"][:l+1]) 

#    lista1.append(sum(lista)/len(lista))            
                


In [10]:
#Calculo de salario de una manera mas inteligente
import re

for lang in all_languages:
    try:
        mask = df_survey["Languages"].str.contains(re.escape(lang))
        average = df_survey.loc[mask, "Salary"].mean()
        meanSalary.loc[lang, "Salary"] = round(average,1)
    except Exception:
        print(lang)

meanSalary

Unnamed: 0,Salary
Python,106298.1
Delphi,92073.3
Bash/Shell,113133.1
C,101244.6
C#,100269.0
HTML/CSS,97879.2
JavaScript,99724.9
PHP,85249.4
SQL,101463.3
TypeScript,103383.6


In [38]:
#Grafica de los lenguajes vs sus ingresos anuales
colors = [
    "#03071E",
    "#370617",
    "#6A040F",
    "#9D0208",
    "#D00000",
    "#DC2F02",
    "#E85D04",
    "#F48C06",
    "#FAA307",
    "#FFBA08"
]

#Permite sacar el grafico por una ventana emergente
#pip install PyQt5
%matplotlib qt5

#plt.style.use("seaborn")

meanSalary.sort_values(by="Salary", inplace=True)
plt.barh(meanSalary.index, meanSalary["Salary"], color=colors)
plt.vlines(meanSalary["Salary"].mean(), 0, len(meanSalary["Salary"]), colors="red", linestyles="dashed", label="Mean Salary")

plt.title("Programming Languages Yearly Compensation")
plt.xlabel("Mean Salary in $")
plt.ylabel("Programming languages")

plt.gca().xaxis.set_major_formatter('${x:1.0f}')
plt.tight_layout()
plt.show()

In [40]:
#Grafica un poco mas arreglada

#promedio de los valores del salario
meanSalary["Salary"].mean()
#indice del valor mas cercano al promedio
meanSalary.index.get_loc("COBOL")
#Quiero imprimir 30 valores, 15 por encima del promedio y 15 por debajo
meanSalary30 = meanSalary[:][3:33]

#pip install PyQt5
%matplotlib qt5

meanSalary.sort_values(by="Salary", inplace=True)
plt.barh(meanSalary30.index, meanSalary30["Salary"])
plt.vlines(meanSalary30["Salary"].mean(), 0, len(meanSalary30["Salary"]), colors="red", linestyles="dashed", label="Mean Salary")

plt.title("Programming Languages Yearly Compensation")
plt.xlabel("Mean Salary in $")
plt.ylabel("Programming languages")

plt.gca().xaxis.set_major_formatter('${x:1.0f}')
plt.tight_layout()
plt.show()