# Introduccion a Pandas
### Pandas es una libreria de manejo de datos especializada en crear funciones que se encargan de limpiar,explicar,ordenar y desplegar datos de diferentes maneras.

### Es especialmente útil para trabajar con datos tabulares (como hojas de cálculo de Excel y bases de datos SQL).


In [1]:
## Importar la libreria

import pandas as pd

In [None]:
## Instalar librerias
!pip install datasets

In [3]:
import datasets

In [4]:
#1. Ejemplo 1 (creacion de series)

s = pd.Series([1, 3, 5, 7, 9])
print(s)


0    1
1    3
2    5
3    7
4    9
dtype: int64


In [46]:
#2. Ejemplo 2 (creacion de un dataframe)

data = {
    'nombres': ['Mariel', 'Luis', 'Pedro','Alex'],
    'edad': [25, 30, 22,13],
    'salario':[20000,34555,22334,15000],
    'ciudad': ['San Jose', 'Alajuela', 'Heredia','Alajuela']
}

df = pd.DataFrame(data)
print(df)

  nombres  edad  salario    ciudad
0  Mariel    25    20000  San Jose
1    Luis    30    34555  Alajuela
2   Pedro    22    22334   Heredia
3    Alex    13    15000  Alajuela


In [8]:
print(df.columns)

Index(['nombres', 'edad', 'salario', 'ciudad'], dtype='object')


In [21]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [11]:
#3. Ejemplo 3 (seleccionar una columna)

edades = df["edad"]
print(edades)

0    25
1    30
2    22
Name: edad, dtype: int64


In [19]:
#4. Ejemplo 4 (seleccionar multiples columnas)

edad_ciudades = df[['edad','ciudad','salario']]
print(edad_ciudades)

   edad    ciudad  salario
0    25  San Jose    20000
1    30  Alajuela    34555
2    22   Heredia    22334


In [20]:
print(type(edad_ciudades))

<class 'pandas.core.frame.DataFrame'>


In [22]:
#5. Ejemplo 5 (Filtrado)

menores_30 = df[df['edad']<30]
print(menores_30)

  nombres  edad  salario    ciudad
0  Mariel    25    20000  San Jose
2   Pedro    22    22334   Heredia


In [23]:
#6. Usar describe() para uso estadistico

df.describe()

Unnamed: 0,edad,salario
count,3.0,3.0
mean,25.666667,25629.666667
std,4.041452,7817.165108
min,22.0,20000.0
25%,23.5,21167.0
50%,25.0,22334.0
75%,27.5,28444.5
max,30.0,34555.0


In [29]:
#7. Agrupar los datos por alguna columna

agrupado_por_ciudad = df.groupby('edad').describe()
print(agrupado_por_ciudad)

     salario                                                          
       count     mean std      min      25%      50%      75%      max
edad                                                                  
13       1.0  15000.0 NaN  15000.0  15000.0  15000.0  15000.0  15000.0
22       1.0  22334.0 NaN  22334.0  22334.0  22334.0  22334.0  22334.0
25       1.0  20000.0 NaN  20000.0  20000.0  20000.0  20000.0  20000.0
30       1.0  34555.0 NaN  34555.0  34555.0  34555.0  34555.0  34555.0


In [None]:
#8. Filtrado con varias columnas

filtrado_columnas = df[(df['edad'] <= 22) & (df['salario'] > 20000)]
print(filtrado_columnas)

In [34]:
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
     index=['Pedro', 'Luis', 'Maria'],
     columns=['Velocidad', 'Capacidad'])

df

Unnamed: 0,Velocidad,Capacidad
Pedro,1,2
Luis,4,5
Maria,7,8


## Importacion de archivos

In [48]:
## Ejemplo 1 archivo xlsx

df = pd.read_excel("Ejemplo.xlsx")
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Mariel,34,San Jose,23000
1,Luis,35,Alajuela,23450
2,Alex,20,Heredia,22345
3,Pedro,12,San Jose,98654


In [50]:
df_txt = pd.read_json("MOCK_DATA.json")
df_txt

Unnamed: 0,nato_phonetic,gender_facebook,gender_binary,is_boolean,color,encrypt,suffix,dataset_column,naughty_string,job_title
0,Lima Romeo Sierra Hotel Papa Charlie Uniform B...,Cis Male,Male,False,Red,df2939a060843e7cc3b2e48ff5d13c2e17dead49,Sr,error: undefined method `id' for nil:NilClass,"__ﾛ(,_,*)",Engineer I
1,November Zulu Whiskey Quebec Kilo Juliett Vict...,Pangender,Male,False,Turquoise,1a0e9bd47277b74aa15b12bcb05efddee5af3dc8,II,error: undefined method `id' for nil:NilClass,⁰⁴⁵₀₁₂,Biostatistician IV
2,Whiskey Foxtrot Tango Bravo Quebec Sierra Hote...,Transsexual Man,Female,False,Violet,3ac27dec842432b46308b333f4e55e0fe2b499ea,Sr,error: undefined method `id' for nil:NilClass,⁰⁴⁵,Speech Pathologist
3,Mike Papa Delta Hotel Kilo Oscar Lima Tango Go...,Cis Male,Female,False,Teal,388da076e06cbc61fe3d047bdc893e118c36f93e,IV,error: undefined method `id' for nil:NilClass,​,Developer II
4,Juliett Yankee Delta Uniform Lima Tango X-ray ...,Transsexual Man,Male,True,Violet,b31895189bc547addaa823f72d59217d53181043,II,error: undefined method `id' for nil:NilClass,ヽ༼ຈل͜ຈ༽ﾉ ヽ༼ຈل͜ຈ༽ﾉ,GIS Technical Architect
...,...,...,...,...,...,...,...,...,...,...
995,Alfa Tango Sierra Romeo Victor Mike Echo India...,FTM,Female,False,Aquamarine,0792252062ffa4f70544d8db631426ae66322280,II,error: undefined method `id' for nil:NilClass,1/0,Developer III
996,Zulu Mike Lima Juliett Oscar Charlie Delta Rom...,Other,Female,True,Indigo,e210df2fa2aa9ada0f111b1a7007a49d21484d0e,II,error: undefined method `id' for nil:NilClass,-1E2,Data Coordinator
997,November Bravo Juliett Zulu Yankee Delta Victo...,Cis Man,Female,True,Green,06bc7328c644ac714efdc6bed8700afc82dcbdb6,III,error: undefined method `id' for nil:NilClass,１２３,Registered Nurse
998,Tango Foxtrot Sierra India Charlie Victor Lima...,Trans Man,Male,True,Turquoise,b2e5925153d1adda72c75d5a5da587690ce64c84,Sr,error: undefined method `id' for nil:NilClass,Œ„´‰ˇÁ¨ˆØ∏”’,Chief Design Engineer


In [51]:
df_csv = pd.read_csv("resulting_data.csv")
df_csv

Unnamed: 0,Number of Retweets,Number of Replies,Positive Score,Negative Score,Net Score
0,3,0,0,0,0
1,1,0,2,2,0
2,1,2,1,0,1
3,3,1,1,0,1
4,6,0,2,0,2
5,9,5,2,0,2
6,19,0,2,0,2
7,0,0,0,3,-3
8,0,0,0,2,-2
9,82,2,4,0,4


In [60]:
## Comparar los tipos de archivos

if type(df) == type(df_csv) and type(df_csv) == type(df_txt):

  print("Son iguales")

else:
  print("Son distintos")

Son iguales
